详细 叙述 数据 挖掘 的 一 般 概 念 、 通 行规 范 、 方 法 技术 以 及 软件 
应 用 等 ， 使 读者 获得 一 个 较为 清晰 和 正确 的 数据 挖掘 观念 

围绕 Excel 2007 的 数据 挖掘 模块 ， 对 Excel 2007 强 大 的 表格 
工具 详 加 讲解 ， 有 助 于 读者 在 工作 表 中 完成 种 种 复杂 的 数据 
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随 着 计算 机 技术 的 全 面 迅速 发 展 ， 人 们 将 在 行政 办 公 、 财 务 管理 、 会 计 、 统 计 、 审 计 
等 众多 领域 面 对 计 算 机 的 应 用 和 管理 。 掌 握 计算 机 在 这 些 领 域 的 应 用 ， 一 方面 可 以 极 大 地 
提高 工作 效率 ， 另 一 方面 也 可 以 提高 业务 水 平 。 信 息 时 代 ， 许 多 行业 都 要 求 工作 者 有 很 强 
的 计算 机 操作 技能 ， 做 到 运用 自如 ， 熟 练 而 且 深 入 地 掌握 软件 的 应 用 。 而 要 做 到 这 一 点 ， 
必须 从 软件 的 实际 应 用 入 手 。 

正 是 在 这 一 大 背景 下 ， 我 们 策划 了 本 套 从 书 ， 精 选 了 应 用 领域 较 广 泛 、 较 常用 的 一 些 
软件 ， 如 Excel、SPSS、 用 友 财 务 软 件 、 金 蝶 财 务 软件 等 ， 则 在 帮助 广大 办 公 人 员 、 财 务 
人 员 、 统 计 分 析 人 员 、 审 计 人 员 及 相关 专业 的 学 生 快速 掌握 这 些 软件 的 应 用 ， 用 以 解决 实 
际 工作 或 学 习 中 的 问题 ， 提 高 自身 的 应 用 水 平 。 


内 容 安 排 


本 从 书 强调 软件 与 职业 应 用 相 结合 ， 以 实例 为 载体 ， 着 重 介绍 常用 软件 的 操作 功能 和 
实践 应 用 技巧 。 本 套 从 书包 括 : 
《用 友 ERP-U8 财务 软件 应 用 实务 》 
《金蝶 K/3 财务 软件 应 用 实务 》 
《SPSS 在 统计 分 析 中 的 应 用 》 
《Excel 2007 在 统计 分 析 中 的 应 用 》 
《Excel 2007 在 会 计 工 作 中 的 应 用 》 
《Excel 2007 在 财务 管理 中 的 应 用 》 
《Excel 2007 在 审计 分 析 中 的 应 用 》 
(Excel 2007 函数 、 公 式 范例 应 用 》 
《Excel 2007 数据 图 表 范 例 应 用 》 
《Excel 2007 VBA 办 公 范 例 应 用 》 
(Excel 2007 数据 挖掘 完全 手册 》 


丛书 特色 


1. 软件 与 职业 应 用 相 结合 ， 实 用 性 强 。 深 入 浅 出 地 讲述 了 行政 办 公 、 财 务 管理 、 会 计 、 
统计 、 数 据 挖掘 、 审 计 各 职业 领域 的 关键 知识 ， 系 统 介 绍 了 相应 的 软件 应 用 方法 及 技巧 ， 
对 实际 工作 有 极 大 的 帮助 和 指导 意义 。 

2. 内 容 丰 富 ， 案 例 典 型 。 本 套 书 每 章 都 有 实践 案例 ， 读 者 可 以 根据 自己 的 情况 进行 取 
舍 ， 直 接应 用 于 具体 的 工作 之 中 。 

3. 结构 合理 ， 逻 辑 清晰 。 从 全 新 的 实例 角度 出 发 ， 按 照 “ 基 本 知识 点 讲解 一 一 实践 应 
用 一 一 和 解决 问题 ”的 逻辑 结构 编写 ， 全 面 介绍 了 这 些 软件 在 日 常 工作 中 的 应 用 。 符 合 读者 
的 学 习 思路 ， 可 以 使 广大 读者 在 最 短 的 时 间 内 学 习 并 利用 应 用 软件 的 各 种 强大 功能 ， 少 走 


弯路 ， 迅 速 提升 专业 技能 和 提高 工作 效率 。 
4. 光盘 特色 。 本 套 丛书 大 部 分 都 配 有 光盘 ， 汇 集 了 书 中 所 用 的 应 用 软件 、 实 例 素材 ， 
及 应 用 实例 的 视频 ， 极 大 地 方便 了 读者 的 学 习 。 


读者 定位 


适合 作为 行政 办 公 、 财 务 管 理 、 会 计 、 统 计 、 审 计 等 领域 在 职工 作 人 员 提 高 自身 业 
girip 还 适合 于 非 统计 类 的 研究 生 及 从 事 相关 数据 分 析 人 员 学 习 

. 适合 作为 高 校 财务 管理 、 会 计 、 统 计 、 审 计 、 市 场 营销 、 电 子 商 务 、 信息 管理 等 相 
Xetra 

.适合 作为 各 相关 领域 应 用 培训 或 职业 培训 的 教学 用 书 。 


P 服务 

如 果 读 者 在 阅读 图 书 的 过 程 中 有 什么 问题 或 需要 帮助 , 可 以 登录 本 丛书 的 信息 支持 网 站 
http://www.thjd.com.cn 或 通过 zzfangcn@vip.163.com (010-62788951-269) 联系 ， 也 可 以 在 
http://www.thjd.com.cn 的 读者 留言 栏目 留言 ， 我 们 将 尽快 给 您 提供 帮助 与 支持 。 
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目前 ， 各 行 各 业 都 开始 利用 计算 机 及 相应 的 信息 技术 进行 管理 和 决策 ， 这 使 得 各 企 事 
业 单 位 生成 、 收 集 、 存 储 和 处 理 数据 的 能 力 大 大 提高 。 数 据 量 与 日 俱 增 ， 大 量 复杂 信息 层 
出 不 穷 ， 人 们 将 面临 着 复杂 数据 的 处 理 问题 。Excel 是 当前 使 用 最 普遍 的 电子 表格 软件 ， 它 
能 容易 地 完成 图 表 的 制作 、 统 计 、 分 析 以 及 数据 处 理 ， 不 但 功能 强大 ， 而 且 简单 易 用 。 最 
新 版 本 的 Microsoft Office Excel 2007 支持 超过 104 万 笔记 录 的 单 张 数据 工作 表 ， 并 可 以 同 
时 存储 1.6 万 列 的 数据 。 为 能 有 效 提 升 Excel 2007 用 户 数据 处 理 和 分 析 的 能 力 ， 微 软 公司 
提供 了 一 个 免费 的 数据 挖掘 模块 。 通 过 调用 该 模块 ，Excel 2007 用 户 可 以 方便 快速 地 完成 
以 往 只 有 使 用 专业 数据 挖掘 软件 才能 完成 的 任务 。 因 此 ， 我 们 编写 了 《Excel 2007 数据 挖 
掘 完全 手册 》 这 本 书 ， 其 目的 是 使 具有 一 定 Excel 基础 的 读者 ， 能 够 在 了 解 相 关 统 计 思 想 
与 方法 的 基础 上 ， 运 用 该 软件 对 复杂 数据 和 海量 数据 进行 处 理 、 分 析 。 

本 书 的 编写 力求 以 统计 思想 为 主线 ， 以 数据 挖 据 技术 应 用 为 目的 。 基 本 内 容 和 特点 具 
体 体现 为 :第 1 篇 详细 叙述 数据 挖掘 的 一 般 概 念 、 通 行规 范 、 方 法 技术 以 及 软件 应 用 等 ， 
使 读者 获得 一 个 较为 清晰 和 正确 的 数据 挖掘 观念 。 第 2 篇 围绕 Excel 2007 的 数据 挖掘 模块 ， 
通过 大 量 操作 示范 ， 详 细 讲述 了 Excel 2007 数据 挖掘 模块 的 九 大 模型 的 使 用 。 这 些 模型 包 
括 决 策 树 、 贝 叶 斯 概率 分 类 、 关 联 规则 、 聚 类 分 析 、 时 序 聚 类 、 线 性 回归 、Logistic 回归 、 
类 神经 网 络 和 时 间 序 列 分 析 ， 基 本 涵盖 了 主要 的 数据 挖掘 技术 和 方法 。 第 3 篇 介绍 了 
Excel 2007 的 其 他 分 析 工 具 ， 结 合 数据 挖掘 技术 和 方法 ， 使 用 改进 的 Excel 表格 工具 ， 可 以 
很 方便 地 进行 图 形 化 的 分 析 。 第 4 篇 是 数据 挖掘 的 案例 分 析 ， 包 括 投资 决策 、 信 用 评级 ， 
以 及 市 场 销 售 和 客户 细 分 等 领域 的 数据 挖掘 模型 。 通 过 详细 的 操作 讲解 和 结果 解释 ， 读 者 
可 以 获得 实际 的 数据 挖掘 经 验 ， 并 能 迅速 在 自己 所 处 的 领域 中 加 以 应 用 。 

本 书 适合 多 层次 多 专业 人 士 如 数学 、 统 计 、 经 济 金融 、 管 理 类 等 专业 的 本 科 生 、 专 科 
生 学 习 ， 还 适合 于 非 统计 类 的 研究 生 及 从 事 相关 数据 分 析 的 人 员 阅 读 。 

本 书 在 编写 及 出 版 的 过 程 中 ， 得 到 了 厦门 大 学 经 济 学 院 计划 统计 系 、 台 湾 辅 仁 大 学 统 
计 资 讯 学 系 和 清华 大 学 出 版 社 的 大 力 支 持 ， 在 此 一 并 表示 衷心 感谢 ! 编写 一 本 好 书 并 不 容 
易 ， 尽管 我 们 努力 想 奉 献 给 读者 一 本 满意 的 书 , 但 仍 有 一 些 内 容 达 不 到 读者 各 方面 的 要 求 。 
书 中 难免 有 疏漏 之 处 ， 奶 请 读者 多 提 宝 贵 意见 ， 以 便 今后 进一步 修改 与 完善 。 

为 了 方便 读者 高 效 、 便 捷 地 使 用 本 书 , 特 免费 提供 本 书 所 有 实例 的 原始 数据 、 源 文件 ， 
请 登录 清华 大 学 出 版 社 网 站 (www.tup.tsinghua.edu.cn) 下 载 。 

本 书 的 编写 得 到 了 厦门 大 学 讲座 教授 基金 和 国家 教育 部 “新 世纪 优秀 人 才 支 持 计 划 ” 
(Program for New Century Excellent Talents in University, NCET) 的 资助 。 
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第 1 章 数据 挖掘 简介 


1.1 数据 挖掘 的 定义 


Data mining is the process of seeking interesting or valuable information in large database. 

数据 挖掘 (data mining〉 是 近年 来 数据 库 应 用 领域 中 相当 热门 的 话题 。 数 据 挖 据 一 般 
是 指 在 数据 库 或 数据 仓库 中 ， 利 用 各 种 分 析 方 法 与 技术 ， 对 过 去 累积 的 大 量 繁杂 数据 进行 
分 析 、 归 纳 与 整合 等 工作 ， 提 取出 有 用 的 信息 ， 例 如 趋势 (trend)、 模 式 〈pattern) 及 相关 
性 〈relationship) 等 ， 并 将 其 中 有 价值 的 信息 作为 决策 参考 提供 给 决策 者 。 通 俗 地 说 ， 数 
据 挖掘 就 是 从 数据 中 发 气 信 息 或 知识 , 有 人 称 为 知识 发 现 (knowledge discovery in database, 
KDD)， 也 有 人 称 为 数据 考古 学 〈data archeology)、 数 据 模式 分 析 (data pattern analysis) 
或 功能 相依 分 析 (functional dependency analysis)。 目 前 ， 数 据 挖 掘 已 经 成 为 数据 库 系 统 、 
机 器 学 习 、 统 计 方 法 等 多 个 学 科 相 互 交 叉 的 重要 领域 ， 而 在 实务 界 ， 越 来 越 多 的 企业 开始 
认识 到 ， 实 施 数据 挖掘 可 以 为 企业 带 来 更 多 潜在 的 商业 机 会 。 

但 我 们 对 数据 挖掘 应 有 一 个 正确 的 认 知 : 数据 挖掘 不 是 一 个 无 所 不 能 的 魔法 。 数 据 控 
掘 的 种 种 工具 都 是 从 数据 中 发 掘 出 各 种 可 能 成 立 的 “预言 > 并 对 其 潜在 价值 加 以 “估计 ?” 
但 数据 挖掘 本 身 并 不 能 在 实际 中 查证 和 确认 这 些 假设 ， 也 不 能 判断 这 些 假 设 的 实际 价值 。 


12 数据 挖 据 的 重要 性 


现代 企业 经 常会 搜集 大 量 的 数据 ， 这 些 数据 涵盖 了 市 场 、 客 户 、 供 货 商 ， 及 其 竞争 对 
手 等 重要 信息 ， 但 是 由 于 信息 超载 与 无 结构 化 ， 企 业 的 决策 者 无 法 充分 利用 这 些 庞大 的 数 
据 资源 ， 仅 能 使 用 其 中 的 一 小 部 分 ， 这 可 能 导致 决策 失误 ， 甚 至 出 现 决策 错误 。 而 借助 数 
据 挖 掘 技术 ， 企 业 完 全 有 能 力 从 浩瀚 的 数据 海洋 中 , 挖掘 出 全 面 而 又 有 价值 的 信息 和 知识 ， 
作为 决策 支持 之 用 ， 进 而 形成 企业 独 有 的 竞争 优势 。 


13 ”数据 挖掘 的 功能 


一 般 而 言 , 数据 挖 据 包括 下 列 五 项 功能 ,这些 功 能 大 多 为 成 熟 的 计量 和 统计 分 析 方 法 。 

1. 分 类 (classification) 

按照 分 析 个 体 的 属性 状态 分 别 加 以 区 分 ， 并 建立 类 组 (class)。 例 如 ， 将 信用 申请 者 的 
风险 等 级 分 为 高 风险 、 中 风险 和 低 风险 三 类 。 使 用 的 方法 有 决策 树 (decision tree)、 判 别 分 
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析 (discriminant analysis )、 类 神经 网 络 (artificial neural network )， 以 及 记忆 基础 推理 
(memory-based reasoning) 等 。 

2. 估计 (estimation) 

根据 已 有 的 数值 型 变量 和 相关 的 分 类 变量 ， 以 获得 某 一 属性 的 估计 值 或 预测 值 。 例 如 ， 
根据 信用 卡 申 请 者 的 教育 程度 和 从 事 职 业 来 设 定 其 信用 额度 。 使 用 的 方法 有 相关 分 析 、 
Logistic 回归 及 类 神经 网 络 等 。 

3. 预测 (prediction) 

根据 个 体 属 性 的 已 有 观测 值 来 估计 该 个 体 在 某 一 属性 上 的 预测 值 。 例 如 ， 由 顾客 过 去 
刷卡 消费 额 预测 其 未 来 的 刷卡 消费 额 。 使 用 的 方法 有 回归 分 析 、 时 间 序 列 分 析 及 类 神经 网 
络 等 。 

4. 关联 分 组 (affinity grouping? 

从 所 有 对 象 决 定 哪 些 相关 对 象 应 该 放 在 一 起 。 例 如 ， 超 市 中 相关 的 洗 澈 用 品 〈 牙 刷 、 
^E. FR) 放 在 同一 货架 上 。 在 客户 营销 系统 上 ， 这 类 分 析 可 以 用 来 发 现 潜在 的 交叉 销 
售 〈cross-selling) 商品 聚 类 ， 进 而 设计 出 有 价值 的 组 合 商品 集合 。 

5. 同 质 分 组 (clustering) 

将 异 质 总 体 分 成 为 同 质 性 的 类 别 (clusters)， 即 聚 类 。 其 目的 是 识别 出 总 体 中 所 包含 的 
混合 类 别 的 组 间 差 异 ， 并 根据 每 个 类 别 的 特征 对 所 有 个 体 进行 归 类 。 同 质 分 组 相当 于 营销 
术语 中 的 细 分 (segmentation )。 应 该 注意 的 是 : 聚 类 分 析 根 据 数据 自动 产生 各 个 类 别 ， 事 
先是 不 知道 或 无 须知 道 总 体 中 潜在 的 类 别 信息 。 使 用 的 方法 有 k-means 等 动态 聚 类 法 及 
agglomeration 等 层次 聚 类 法 。 


1.4 数据 挖 气 的 步骤 


数据 挖掘 的 步骤 会 随 不 同 领域 的 应 用 而 有 所 变化 ， 每 一 种 数据 挖掘 技术 也 会 有 各 自 的 
特性 和 使 用 步骤 ， 针 对 不 同 问题 和 需求 所 制定 的 数据 挖掘 过 程 也 会 存在 差异 。 此 外 ， 数 据 
的 完整 程度 、 专 业 人 员 支 持 的 程度 等 都 会 对 建立 数据 挖掘 过 程 有 所 影响 〈 蔡 维 欣 ，2003 )。 
这 些 因素 造成 了 数据 挖掘 在 各 不 同 领域 中 的 运用 、 规 划 ， 以 及 流程 的 差异 性 ， 即 使 同一 产 
业 ， 也 会 因为 分 析 技 术 和 专业 知识 的 涉 入 程度 不 同 而 不 同 ， 因 此 对 于 数据 挖掘 过 程 的 系统 
化 、 标 准 化 就 显得 格外 重要 。 如 此 一 来 ， 不 仅 可 以 较 容 易 地 跨 领 域 应 用 ， 也 可 以 结合 不 同 
的 专业 知识 ， 发 挥 数据 挖掘 的 真正 精神 。 

数据 挖掘 完整 的 步骤 如 下 : 

@ 理解 数据 和 数据 的 来 源 (understanding )。 

© 获取 相关 知识 与 技术 (acquisition)。 

@ 整合 与 检查 数据 (integration and checking). 

© 去 除 错误 或 不 一 致 的 数据 (data cleaning). 
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© 建立 模型 和 假设 (model and hypothesis development). 

© 实际 数据 挖掘 工作 (data mining), 

© 测试 和 验证 挖掘 结果 (testing and verfication). 

解释 和 应 用 (interpretation and use). 

由 上 述 步骤 可 看 出 ， 数 据 挖掘 牵涉 了 大 量 的 准备 工作 与 规划 工作 ， 事 实 上 许多 专家 都 
认为 整套 数据 挖掘 的 过 程 中 ， 有 80% 的 时 间 和 精力 是 花费 在 数据 预 处 理 阶 段 ， 其 中 包括 数 
据 的 净化 、 数 据 格式 转换 、 变 量 整合 ， 以 及 数据 表 的 链接 。 可 见 ， 在 进行 数据 挖掘 技术 的 
分 析 之 前 ， 还 有 许多 准备 工作 要 完成 。 


15 数据 挖掘 建 模 的 标准 CRISP-DM 


CRISP-DM 是 Cross-Industry Standard Process for Data Mining 的 简称 ， 中 文 翻译 为 “ 数 
据 挖 掘 的 跨行 业 标准 过 程 ” CRISP-DM 是 由 欧洲 几 家 在 数据 挖掘 应 用 上 有 经 验 的 公司 共同 
筹划 组 织 的 一 个 特别 小 组 所 提出 的 。 该 组 织 的 成 员 包 括 数据 仓储 供 货 商 NCR、 德 国 汽车 航 
天 公司 Daimler-Chrysler、 统 计 分 析 软 件 供 货 商 SPSS 和 荷兰 的 银行 保险 公司 OHRA， 除 了 
NCR 与 SPSS 等 是 专注 于 数据 挖掘 软件 开发 的 成 员 之 外 ， 也 有 其 他 众多 厂商 参与 实验 ， 通 
过 实际 操作 过 程 ， 整 体 规 划 设计 ， 并 在 2000 年 推出 了 CRISP-DM 1.0 模型 ， 把 数据 挖掘 过 
程 中 必要 的 步骤 都 加 以 标准 化 。CRISP-DM 模型 强调 完整 的 数据 挖掘 过 程 ， 不 能 只 针对 数 
据 整 理 、 数 据 显示 、 数 据 分 析 以 及 构建 模型 ， 而 应 该 将 对 企业 的 需求 问题 的 理解 ， 以 及 后 
期 对 模型 的 评价 与 模型 的 延伸 应 用 都 纳入 到 数据 挖掘 过 程 中 。 因 此 ，CRISP-DM 从 方法 学 
的 角度 强调 了 实施 数据 挖掘 项 目的 方法 和 步 又， 同时 独立 于 每 种 具体 数据 挖掘 算法 和 数据 

CRISP-DM 分 为 六 个 阶段 (phase) 和 四 个 层次 〈level)， 分 别 简介 如 下 。 

六 个 阶段 如 下 。 

1. 定义 商业 问题 (business understanding) 

本 阶段 的 主要 工作 是 要 针对 企业 问题 以 及 企业 需求 进行 了 解 确认 ， 针 对 不 同 的 需求 做 
深入 的 了 解 ， 将 其 转换 成 数据 挖掘 的 问题 ， 并 拟定 初步 构想 。 在 此 阶段 中 ， 需 要 与 企业 各 
层次 进行 讨论 ， 只 有 对 要 解决 的 问题 有 了 非常 清楚 而 全 面 的 了 解 ， 才 能 正确 地 针对 问题 拟 
定 分 析 过 程 。 

2. 数据 理解 (data understanding) 

此 阶段 包括 建立 数据 库 与 分 析 数 据 。 在 这 个 阶段 必须 先 收集 数据 ， 了 解数 据 的 含义 与 
特性 ， 并 过 滤 出 所 有 可 能 有 用 的 数据 ， 然 后 进行 数据 整理 并 评估 数据 的 质量 ， 必 要 时 再 将 
分 属 不 同 数据 库 的 数据 加 以 合并 或 整合 。 数 据 库 建立 完成 后 再 进行 数据 分 析 ， 并 找 出 影响 
最 大 的 数据 ， 进 而 判断 是 否 有 必要 进一步 收集 更 为 详细 的 数据 。 

3. 数据 预 处 理 (data preparation) 

此 阶段 和 数据 理解 阶段 为 数据 准备 阶段 的 核心 ， 这 是 建立 模型 前 的 最 后 一 步 数 据 准备 
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工作 。 数 据 预 处 理 任务 很 可 能 要 反复 执行 多 次 ， 并 且 没有 任何 既定 的 顺序 ， 其 目的 是 把 各 
种 不 同 来 源 的 数据 加 以 清理 、 整 理 和 归并 ， 以 适合 数据 挖掘 技术 的 使 用 。 

4. 建立 模型 (modeling) 

此 阶段 对 预 处 理 过 的 数据 应 用 各 种 数据 挖掘 技术 ， 建 立 分 析 模 型 ， 发 现 企 业 问题 的 根 
源 。 面 对 同一 个 问题 ， 会 有 多 种 可 供 使 用 的 分 析 技术 ， 但 是 每 种 技术 对 数据 都 有 不 尽 相 同 
的 要 求 ， 因 此 需要 回 到 数据 预 处 理 阶 段 ， 重 新 转换 数据 为 符合 要 求 的 格式 。 

5. 评价 和 解释 (evaluation and explanation ) 

从 数据 分 析 的 观点 看 ， 在 开始 进入 这 个 阶段 时 已 经 建立 了 看 似 是 高 质量 的 模型 ， 但 在 
实际 应 用 中 ， 随 着 应 用 数据 的 不 同 ， 模 型 的 准确 率 肯 定 会 变化 。 这 一 阶段 的 主要 任务 是 对 
于 挖掘 结果 加 以 评价 和 解释 。 一 个 值得 注意 的 问题 是 : 是 否 有 某 些 重 要 的 商业 问题 还 没有 
充分 地 考虑 ， 以 至 于 使 模型 的 预测 精度 发 生 了 显著 的 变化 。 

6. 实施 (deployment) 

- 般 而 言 ， 完 成 模型 创建 并 不 意味 着 项 目 结束 。 模 型 建立 并 经 验证 后 ， 有 两 种 主要 的 
使 用 方法 。 第 一 种 是 提供 给 分 析 人 员 做 参考 ， 由 分 析 人 员 通 过 查看 和 分 析 这 个 横 型 后 提出 
行动 方案 建议 ， 另 一 种 是 把 此 模型 应 用 到 不 同 的 数据 集 上 。 此 外 ， 在 应 用 了 模型 后 ， 当 然 
还 要 不 断 监 控 它 的 效果 。 

四 个 层次 (level) 分 别 为 phase、generic task, specialized task 和 process instance。 每 个 
phase 由 若干 generic task 组 成 , 每 个 generic task 又 实施 若干 Specialized task, 每 个 specialized 
task 由 若干 process instance 来 完成 。 其 中 ， 上 两 层 独 立 于 具体 数据 挖掘 方法 ， 即 是 一 般 数 
据 挖 掘 项 目 均 需 实施 的 步骤 (What to do? )， 这 两 层 的 任务 将 结合 具体 数据 挖掘 项 目的 “上 
下 文 ”(context) 映射 到 下 两 层 的 具体 任务 和 过 程 。 所 谓 项 目的 “上 下 文 ” 是 指 项 目 开发 中 
密切 相关 、 需 要 综合 考虑 的 一 些 关 键 问题 ， 如 应 用 领域 、 数 据 挖 掘 问题 类 型 、 技 术 难 点 、 
工具 及 其 提供 的 技术 等 。 


第 2 章 数据 挖掘 运用 的 理论 和 技术 


2.1 回归 分 析 


回归 分 析 主 要 用 于 了 解 自 变量 与 因 变量 问 的 数量 关系 。 其 目的 是 获得 变量 问 相关 性 的 
数量 描述 ， 通 过 控制 自 变量 来 影响 因 变 量 ， 达 到 所 谓 “以 价 制 量 ”的 效果 ， 也 可 以 利用 已 
知 变量 对 未 知 变量 做 预测 。 当 然 ， 选 取 自 变量 时 ， 必 须 注意 所 选 出 的 自 变量 与 因 变 量 是 否 
存在 着 因果 关系 。 


2.1.1 简单 线性 回归 分 析 


最 简单 的 回归 ， 只 包括 一 个 因 变量 Y 与 一 个 自 变量 X， 同 时 希望 它们 之 间 的 关系 是 
直线 : 


Y=P+BX,+e , i=1,2,---,n 
其 中 : 
y 为 因 变 量 (dependent variable; response variable) 。 
XJ HAE St (independent variable). 
E 为 误差 项 Cerror term). 
满足 这 样 关系 的 模型 ， 称 为 线性 模型 (linear model )， 模 型 中 的 参数 (regression 
parameters) 叫做 回归 系数 (regression coefficient). 


2.1.2 多 元 回归 分 析 


实际 上 ， 影 响 因 变量 了 的 自 变量 总 往往 不 只 一 个 ， 而 有 大 个 ， 例 如 影响 小 麦 产量 的 因 
素 有 雨量 xy. “Ga xo. WEE 名、 土壤 肥力 总 等 独立 的 变量 。 又 如 影响 人 们 体重 的 因素 有 
食物 摄取 量 Xn ZE 有 及 睡眠 时 间 加 三 个 自 变量 。 一 个 因 变 量 与 多 个 自 变量 间 的 关系 ， 
可 表示 为 : 
y = g 3 ,Pe os, Ps ti ed U 2. 8 
该 式 中 ， 各 自 变 量 都 是 一 次 究 式 ， 称 为 多 元 线性 回归 模型 ， 其 中 参数 p, 为 截 距 ， 参 数 
A.B, i 为 回归 系数 。 
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2.1.3” 岭 回归 分 析 


当 自 变量 间 存在 多 重 共 线 性 关系 时 ， 这 些 自 变量 就 不 适合 放 入 同一 模型 。 如 果 自 变量 
间 存 在 高 度 多 重 共 线 性 ， 则 回归 系数 的 方差 变 大 ， 使 得 一 个 或 多 个 自 变量 因为 无 法 通过 参 
数 的 显著 性 检验 而 被 舍弃 ， 从 而 建立 一 个 没有 效率 的 回归 模型 。 所 以 在 建 模 前 ， 需 要 对 自 
变量 间 的 多 重 共 线 性 进行 检查 ， 以 避 开 这 一 问题 。 最 直接 的 方法 是 同一 模型 中 避免 选取 有 
高 度 相 关 性 的 自 变量 ， 另 一 种 方法 是 利用 统计 方法 ， 如 利用 岭 回 归来 降低 回归 系数 估计 值 
的 方差 。 

多 重 共 线 性 是 指 自 变量 间 有 比较 显著 的 相关 性 。 假 设 有 m 个 自 变量 被 考虑 放 入 同一 个 
回归 模型 中 ， 如 果 利 用 简单 的 相关 系数 只 能 发 现 两 个 自 变 量 间 的 相关 程度 ， 不 能 发 现 多 变 
量 之 间 的 相关 性 。 参 照 线性 回归 的 思路 ,可 以 利用 某 一 自 变量 与 其 他 m -1 个 自 变 量 间 多 元 
回归 的 判定 系数 的 大 小 来 判断 多 重 共 线性 的 强烈 程度 。 若 第 i 个 自 变量 与 其 他 m -1 个 自 变 
量 的 回归 方程 为 : 


En f anu tot ds A es l2, m 


idi dim mm? 


其 中 ， 
S 为 第 ;个 多 元 回归 模型 的 截 距 项 ， 
各 为 第 加 个 多 元 回归 模型 的 回归 系数 。 
此 模型 得 到 的 回归 判定 系数 为 ; 


a SSR, . 
R; =——, i=1,2,---,m 
SST, 
可 以 通过 计算 方差 膨胀 因子 (Variance Inflation Factor, VIF) 来 表示 多 重 共 线 性 的 指数 ， 
其 计算 公式 为 : 


1 
VIE =— i=1,2,---,m 
1- R 


"4 R =0 时 , 表示 第 i 个 自 变量 与 其 他 m-1 个 自 变量 不 相关 , RU VIE =1; ifi R 一 1， 
表示 第 i 个 自 变量 与 其 他 m-1 个 自 变 量 趋 近 于 完全 相关 ， 则 VIE, — e, I VIF; 上 共有 测度 
多 重 共 线性 的 能 力 。m 个 自 变 量 可 以 计算 出 m 个 V 正 值 , 其 中 若是 最 大 的 VIF 值 超过 10( 表 
明 至 少 某 个 判定 系数 大 于 0.9)， 则 认为 自 变量 存在 着 高 度 的 多 重 共 线 性 。 当 自 变 量 数目 过 
多 时 ， 可 以 对 m 个 VF 值 求 取 平均 数 : 

— dee 
VIF 2—7 VIE 
m 


若 VIF 明 显 大 于 1， 则 认为 多 重 共 线性 存在 。 
一 般 地 ，VIF 值 的 计算 可 以 利用 自 变量 的 相关 系数 矩阵 来 求 得 : 
Ca tki tat 
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EP, re 为 自 变 量 的 相关 系数 和 矩阵， 大 为 最 佳 压缩 系数 ， 了 为 单位 矩阵 。 当 K-0 时 ， 
VIF, 值 是 上 式 的 矩阵 对 角 线 元 素 ， 并 可 以 通过 计算 出 VIE 值 来 判断 自 变量 间 的 多 重 共 线性 
程度 。 在 判断 出 自 变 量 存在 着 高 度 共 线性 时 ， 可 以 利用 上 式 ， 调 整 不 同 的 上 值 (0<k<1)， 
来 求 得 在 不 同上 值 的 V 下 值 ， 并 找 出 VIF 值 最 接近 1 的 大 值 来 作为 线性 转换 量 Z 的 上 值 。 


2.1.4 Logistic 回归 分 析 


回归 分 析 是 利用 一 系列 的 数值 型 变量 来 预测 另 一 个 数值 型 变量 ， 但 无 法 对 仅仅 具有 若 
干 状 态 的 定性 变量 进行 预测 。 定 性 变量 的 分 析 ， 需 要 使 用 Logistic 回归 分 析 。Logistic 回归 
可 以 分 析 一 大 类 的 问题 ， 例 如 讨论 定性 变量 和 数值 变量 对 同一 个 类 别 变量 的 影响 和 关系 ; 
它们 之 间 的 独立 性 ; 在 不 独立 时 具有 什么 形式 的 数量 关系 。 当 因 变 量 是 一 个 0/1 变量 时 (只 
取 0 和 1 两 种 值 )， 如 果 定义 y= 1 的 概率 p=Pr{y= 直 为 要 研究 的 对 象 ， 将 影响 y 变动 的 
因素 定义 为 自 变 量 ， 记 为 zw…,xx， 这 其 中 既 有 定性 变量 ， 也 有 数值 变量 。 线 性 Logistic 回 
归 假 设 自 变 量 和 因 变 量 之 问 存在 以 下 数量 关系 : 

"| P Jaca enu 
l=p 

即 m[Ey/(1-Ey) | 是 关于 xut, Xk 的 线性 函数 。 而 者 等 式 左边 是 一 个 非 线 性 函数 

g Ga, xc), 其 中 cc 表示 可 能 包含 的 参数 向 量 , 则 相应 模型 称 为 非 线 性 Logistic 回归 模型 。 


2.2 关联 规则 


关联 规则 用 于 发 现 数据 中 变量 问 的 关系 。 随 着 数据 不 断 地 收集 和 储存 ， 从 大 量 商业 交 
易 记 录 中 会 发 现 有 趣 的 关联 规则 ， 有 助 于 许多 商业 决策 的 制定 ， 如 商品 组 合 设计 和 交叉 销 
售 等 。 

关联 规则 中 最 典型 的 一 个 应 用 就 是 购物 篮 分 析 。 该 方法 通过 记录 顾客 放 入 其 购物 篮 中 
不 同 商品 的 条 形 码 ,分 析 顾 客 的 购买 特性 。 了解 某 些 商品 组 合 被 顾客 同时 购买 的 概率 高 低 ， 
通过 此 关联 的 发 现 ， 可 以 协助 零售 商 拟定 产品 组 合营 销 策略 。 例 如 ， 一 次 超市 购物 中 ， 某 
位 顾客 如 果 已 经 购买 了 牛奶 ， 则 其 同时 具有 购买 面包 的 可 能 性 。 通 过 帮助 零售 商 有 选择 地 
规划 商品 的 摆设 地 点 和 促销 组 合 ， 由 此 引导 销售 ， 提 高 商品 组 合 的 销售 量 。 

关联 规则 最 早 由 Agrawal 提出 , 例如 两 个 商品 项 目 集 X, 了 可 能 同时 被 购买 ,那么 可 以 
建立 规则 对 寺 Y 了 ， 并 采用 该 规则 中 所 包含 项 目的 联合 概率 来 测度 这 一 规则 的 发 生 频 率 高 
低 。 关 联 规则 中 有 两 个 重要 的 参数 : 支持 度 Csuppor 和 可 信和 度 (confidence )。 其 中 支持 
度 是 指 了 与 Y 同 时 出 现在 DD 交易 记录 数据 集 的 次 数 , RA D 中 交易 记录 的 次 数 的 值 ; 以 概 
率 的 观点 来 看 ， 支 持 度 就 是 同时 发 生 蕊 与 了 事件 的 联合 概率 。 可 信 度 是 指 苞 与 了 同时 出 现 
在 DD 交易 总 集合 的 次 数 , 除 以 项 集 在 DD 交易 总 集合 出 现 的 次 数 的 值 ; 以 概率 的 观点 来 看 ， 
可 信 度 就 是 在 世事 件 发 生 的 情况 下 ， 了 事件 发 生 的 条 件 概 率 。 
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聚 类 分 析 是 一 种 动态 分 类 的 方法 ， 可 以 把 相似 的 事物 归 入 合适 的 类 别 ， 使 同类 中 的 事 
物 尽 可 能 地 相似 (组 内 同 质 性 )， 而 类 与 类 之 间 保 持 显著 的 差异 (组 间 异 质 性 )。 例 如 ， 根 
据 描述 客户 相似 或 差异 性 的 指标 ， 将 客户 群体 分 割 成 若干 具有 不 同 特点 的 类 别 ， 进 而 达到 
市 场 分 割 的 目的 。 

在 聚 类 分 析 中 ， 所 有 客户 所 属 分 类 是 事前 未 知 的， 客户 群体 中 存在 的 类 别 数 也 是 未 知 
的 。 为 得 到 合理 的 分 类 ， 必 须 使 用 适当 的 指标 来 定量 地 描述 研究 对 象 间 的 同 质 性 。 常 用 的 
指标 为 “距离 ”和 “相似 系数 ”。 假 定 研究 个 体 都 用 “点 ”来 表示 ， 在 聚 类 分 析 中 ， 一 般 是 
将 “距离 ” 较 近 的 点 或 “相似 系数 ” 较 大 的 点 归 为 同一 类 ， 将 “距离 ” 较 大 或 “相似 系数 ” 
较 小 的 点 归 为 不 同 的 类 别 。 当 然 ， 聚 类 分 析 也 可 以 用 于 分 析 指 标 间 的 相似 性 ， 这 就 相当 于 
调换 个 体 和 指标 ， 将 原 指标 视 为 个 体 ， 而 将 原 个 体 视 为 指标 。 

HAXH Y eon s 维 空间 中 个 个 体 中 的 任意 两 个 点 ， 如 果 是 对 变量 聚 类 , 和 了 分 
别 表 示 k 个 变量 中 的 任意 两 个 ,其 变量 维 数 就 是 样本 量 n。 如 果 是 对 样本 做 聚 类 ， 则 和 了 
分 别 表示 两 个 个 体 ， 维 数 s 就 是 聚 类 变量 的 个 数 。 

常用 的 距离 指标 为 欧 氏 距离 (euclidean distance), IARU TF: 


D(X,Y)= E-n, a ly 


常用 的 相似 系数 指标 为 余弦 系数 和 皮尔 森 相 关系 数 。 
余弦 系数 〈cosine) 的 公式 如 下 : 


S(X,Y)= XY)/ YO x»0 Y). i2132,-,5 


皮尔 森 相关 系数 (pearson correlation) 的 公式 如 下 : 
S(X,Y)= ZZ, Y), i212,ss 


xi^ yi 

其 中 Zu JI Z, KR XA Y REESE 

常用 聚 类 分 析 方 法 分 为 两 大 类 : 层次 聚 类 法 Chierarchical clustering). 和 非 层 次 聚 类 法 
(non-hierarchical clustering)。 层 次 聚 类 法 又 称 系统 聚 类 法 ， 其 聚 类 过 程 可 用 所 谓 的 层次 结 
构 或 树 状 结构 来 描绘 ， 具 体 又 分 为 积聚 法 Cagglomerative clustering) 和 分 割 法 (divisive 
clustering) 两 种 。 积 聚 法 是 先 把 所 有 的 个 体 分 别 作为 一 类 ， 将 各 组 组 间距 离 最 小 或 相似 系 
数 最 大 的 组 合并 成 新 的 一 组 ,在 聚 类 准则 下 将 所 有 的 组 归并 。 然 后 对 归并 后 所 形成 的 新 组 ， 
再 次 计算 其 组 问 间距 或 相似 系数 ， 并 将 各 组 的 组 间距 离 最 小 或 相似 系数 最 大 的 合并 ， 依 此 
持续 合并 ， 直 到 所 有 的 个 体 都 被 归 入 同一 组 为 止 。 而 分 割 法 正好 相反 ， 先 将 所 有 的 数据 看 
成 一 个 群 ， 然 后 在 一 定 的 分 割 准 则 下 ， 对 该 整体 进行 分 割 ， 使 每 一 组 中 的 个 体 尽 可 能 远离 
另外 一 组 。 然 后 分 别 对 每 组 再 继续 分 割 ， 直 到 每 一 个 体 仅 包含 单一 个 体 为 止 。 

最 常用 的 积聚 法 是 连接 法 Clinkage method)， 根 据 事 先 定 义 的 组 与 组 之 间 的 距离 的 计 


— io 
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算 标准 ， 将 各 组 逐步 合并 。 由 于 聚 类 间距 离 的 定义 不 同 ， 又 可 以 分 为 四 种 : 
O 单一 连接 法 (single linkage): 也 称 最 短 距离 法 或 最 近 紧 邻 连接 法 ， 两 个 类 之 间 的 
距离 定义 为 分 别 来 自 两 群 中 的 个 体 间 的 最 短 距离 ， 并 依 此 类 间距 离 选择 最 靠近 的 
组 来 合并 。 
O 完全 连接 法 (complete linkage): 也 称 最 长 距离 法 或 最 远 紧 邻 连接 法 ， 两 个 组 间 
的 距离 定义 为 分 别 来 自 两 组 中 的 个 体 间 的 最 长 距离 ， 并 依 此 类 间距 离 选 择 最 靠近 
的 组 来 合 
O 平均 连接 法 Caverage linkage) : 也 称 Ward 法 (Ward's procedure) ， 其 分 类 标准 
与 方差 分 析 类 似 。 即 在 分 组 的 过 程 中 ， 使 组 内 个 体 间 的 离 差 平方 和 尽 可 能 小 ， 而 
组 间 的 离 差 平方 和 尽 可 能 大 。 
O 重心 法 (centroid method) : 两 个 组 之 间 的 距离 定义 为 两 组 重心 之 间 的 距离 ， 然 后 
与 连接 法 类 似 ， 将 各 个 类 别 逐 步 合并 。 
非 层 次 聚 类 法 ， 也 称 为 逐步 聚 类 法 、k-means 聚 类 法 或 快速 聚 类 法 ， 该 类 型 的 聚 类 法 又 
可 以 分 为 序列 阀 值 法 Csequential threshold method), “#47 MEY% (parallel threshold method) 
以 及 最 佳 分 离 法 Coptimizing partitioning method)， 其 中 序列 阀 值 法 事先 规定 一 个 阔 值 ， 选 
取 一 个 中 心 点 ， 将 与 该 中 心 点 的 距离 在 阔 值 内 的 所 有 点 都 归 入 同一 组 ， 然 后 再 选取 一 个 中 
心 ， 对 还 没有 归 类 的 点 重复 该 过 程 ， 直 到 所 有 点 都 归 入 某 一 组 为 止 。 平 行 阐 值 法 与 序列 阔 
值 法 类 似 ， 所 不 同 的 只 是 所 有 的 聚 类 中 心 是 同时 选取 的 ， 将 阔 值 范围 内 的 点 归 到 离 中 心 最 
近 的 那 一 组 。 最 佳 分 离 法 则 是 允许 重新 分 配 已 归 类 的 点 到 其 他 类 别 内 ， 以 使 总 体 的 分 组 标 
准 达到 优化 。 分 组 标准 需要 事先 确定 ， 例 如 取 单 一 连接 法 、 完 全 连接 法 或 平均 连接 法 等 。 


2.4 判别 分 析 


数据 挖掘 中 的 分 类 功能 是 指 : 在 已 知 现 有 的 分 类 下 ， 如 何 建立 一 套 判别 标准 ， 并 对 新 
样本 进行 分 类 。 例 如 ， 根 据 消 费 者 的 一 些 背 景 数据 ， 可 以 判定 哪些 消费 者 更 可 能 是 忠诚 客 
户 ， 判 别 忠诚 客户 与 非 忠 诚 客户 的 基本 特征 和 分 析 特征 ， 并 可 以 区 分 哪些 心理 特征 或 生活 
方式 特征 可 以 作为 判别 或 区 分 客户 类 型 的 标准 。 这 些 问 题 的 性 质 都 是 相同 的 ， 即 根据 从 个 
体 所 测定 或 观察 到 的 一 些 指标 来 判断 个 体 属于 哪 种 类 型 ， 并 对 此 作出 区 分 。 

判别 分 析 就 是 研究 判断 个 体 所 属 类 型 的 一 种 多 元 统计 方法 。 具 体 地 说 ， 判 别 分 析 中 的 
因 变 量 或 判别 准则 是 类 别 变量 ， 而 自 变量 或 预测 变量 基本 上 是 等 距 变量 。 分 析 的 过 程 就 是 
建立 自 变量 的 线性 组 合 ， 使 之 能 最 佳 地 区 分 出 因 变 量 的 各 个 类 别 。 例 如 ， 若 因 变 量 为 某 种 
产品 的 价格 敏感 型 客户 和 非 敏感 型 客户 ， 而 自 变量 为 对 一 组 消费 观念 的 态度 得 分 的 李 克 特 
五 分 量 表 ， 而 在 判别 分 析 中 可 进行 的 主要 有 : 

O 建立 判别 函数 ， 即 找到 能 最 恰当 地 区 分 因 变 量 类 别 的 自 变量 的 线性 组 合 ， 或 确定 
事后 概率 ， 即 计算 每 个 个 体 落 入 各 类 别 的 概率 。 

口 检验 各 类 别 在 预测 变量 方面 是 否 存 在 显著 的 差异 。 
Q 确定 哪些 预测 变量 是 区 分 类 别 差异 的 重要 变量 。 
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口 根据 预测 变量 的 值 对 个 体 进行 分 类 。 
OQ ”对 分 类 的 准确 程度 进行 评估 。 
判别 分 析 模 型 用 一 个 或 几 个 判别 函数 来 表示 , 在 有 两 个 类 别 的 情况 只 需 一 个 判别 函数 。 
最 简单 也 是 比较 常用 的 判别 函数 为 线性 函数 : 
D, =b, +b X, +b,X,, +b, X, +---+b, Xi, 


其 中 : 

DD 为 判别 得 分 ，D; 表 示 对 应 于 第 i 个 个 体 的 得 分 ; 

b 为 判别 系数 或 权重 ，b; 表 示 对 应 于 第 i 个 自 变量 或 预测 变量 的 系数 ; 

了 为 自 变量 或 预测 变量 ，Xi 表 示 对 应 于 第 i 个 个 体 在 第 k 个 自 变量 上 的 取 值 。 

根据 所 收集 样本 的 数据 ， 可 以 计算 出 一 个 判别 的 临界 值 D.。， 作 为 判定 某 个 个 体 归属 到 
哪 一 个 类 别 的 基准 。 在 判别 分 析 中 有 一 个 基本 的 假设 ;每 一 个 类 别 都 是 取 自 一 个 多 元 正 态 
总 体 的 样本 ， 而 且 所 有 正 态 总 体 的 协 方差 矩阵 或 相关 系数 矩阵 都 假定 是 相同 的 。 在 数据 挖 
掘 的 实际 应 用 中 ， 常 用 的 办 法 是 将 原始 数据 经 过 抽样 后 ， 抽 出 两 部 分 ， 其 中 一 部 分 作为 分 
析 样 本 训练 样本 )， 对 其 进行 分 析 并 建立 判别 函数 ， 再 利用 另外 一 个 样本 验证 样本 )， 
来 评估 判别 函数 的 效果 。 


25 类 和 神经 网 络 分 析 


类 神经 网 络 的 相关 研究 与 其 应 用 范围 在 近年 来 发 展 极为 迅速 ， 其 应 用 领域 包括 工业 工 
程 、 商 业 与 金融 、 社 会 科学 及 科学 技术 等 。 其 最 大 优点 除 可 应 用 于 构建 非 线 性 模型 外 ， 无 
须 像 传统 统计 方法 那样 在 构建 模型 之 前 需要 验证 假设 是 否 成 立 。 类 神经 网 络 的 原始 想法 与 
基本 结构 都 和 神经 生物 学 中 的 神经 元 构造 相似 。 根 据 Freeman (1992) 的 定义 ， 类 神经 网 
络 是 模仿 生物 神经 网 络 的 信息 处 理 系统 ， 通 过 使 用 大 量 简单 连接 的 人 工 神 经 元 来 模仿 生物 
神经 网 络 的 能 力 。 而 在 一 个 网 络 模型 中 ， 一 个 人 工 神经 元 将 从 外 界 环境 或 其 他 人 工 神经 元 
取得 信息 ， 根 据 信 息 的 相对 重要 程度 给 予 不 同 的 权重 ， 加 总 后 再 由 人 工 神经 元 中 的 数学 函 
数 进 行 转换 ， 并 输出 其 结果 到 外 界 环 境 或 其 他 人 工 神经 元 当中 。 其 运作 概念 如 图 2-1 所 示 。 


Xx 


Wy 


x 


M 


Wy 
图 2-1 类 神经 网 络 原 理 
口 “总 为 神经 元 的 输入 (input) 。 
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OQ ~ 为 键 结 值 (weights)， 类 神经 网 络 的 训练 就 是 在 调整 键 结 值 ， 使 其 变 大 或 减 小 ， 
通常 是 通过 随机 的 方式 产生 一 个 介 于 +1 一 -1 之 间 的 初始 值 。 键 结 值 可 视 为 一 种 加 
权 效 果 ， 其 值 越 大 ， 则 代表 连结 的 神经 元 更 容易 被 激发 ， 对 类 神经 网 络 的 影响 也 
更 大 ; RZ, 则 代表 对 类 神经 网 络 并 无 太 大 影响 ， 而 太 小 的 键 结 值 通常 可 以 舍 去 ， 
以 节省 计算 机 计算 的 时 间 与 空间 。 

O “ 马 为 加 总 单元 (summation) ， 此 部 分 是 将 每 一 个 输入 值 与 键 结 值 相 乘 后 做 一 加 总 
的 动作 。 

O F (Z) 为 激活 函数 Cactivation function) ， 通 党 是非 线性 函数 ， 有 多 种 不 同 的 函 
数 类 型 ， 其 目的 是 将 Z 的 值 做 映射 得 到 所 需要 的 输出 。 

O Y CoutpuO ， 也 就 是 最 终 所 需要 的 结果 。 

将 上 述 的 神经 元 组 合 起 来 就 成 为 一 个 类 神经 网 络 。 到 目前 为 止 ， 许 多 学 者 针对 不 同 的 
研究 问题 , 提出 了 许多 类 神经 网 络 模型 ， 各 种 类 神经 网 络 的 算法 并 不 相同 。 常 见 的 网 络 有 : 
反 向 传递 网 络 、 霍 普 菲 尔 网 络 和 半径 式 函 数 网 络 ， 这 些 类 神经 网 络 并 非 适用 所 有 的 问题 ， 
必须 针对 欲 解决 问题 的 不 同 选择 适当 的 类 神经 网 络 。 

类 神经 网 络 必须 通过 反复 训练 的 方式 ， 才 能 获得 比较 好 的 估计 参数 。 因 此 在 类 神经 网 
络 的 学 习 过 程 中 ， 必 须 提 供 一 个 训练 样本 ， 训 练 样本 来 自 于 实际 系统 输入 与 输出 数据 或 以 
往 的 经 验 。 类 神经 网 络 的 工作 性 能 与 训练 样本 有 直接 的 关系 ， 若 训练 样本 不 正确 、 太 少 或 太 
相似 ， 类 神经 网 络 的 工作 适应 能 力 与 预测 能 力 将 大 打折 扣 。 换 句 话 说， 训练 样本 相当 于 类 神 
经 网 络 的 “老师 ” 因此 训练 样本 越 多 、 越 真实 、 差 异性 越 大 ， 类 神经 网 络 的 能 力 就 越 强 。 

训练 类 神经 网 络 的 目的 ， 就 是 让 类 神经 网 络 的 输出 尽 可 能 接近 目标 值 ， 即 相同 的 输入 
进入 到 系统 与 类 神经 网 络 ， 得 到 的 输出 值 要 尽 可 能 相同 。 类 神经 网 络 在 刚 开 始 训练 的 时 候 ， 
其 输出 是 凌乱 的 。 伴 随 着 训练 次 数 的 增加 ， 类 神经 网 络 的 键 结 值 会 逐渐 被 训练 数据 调整 ， 
使 得 类 神经 网 络 的 输出 结果 与 目标 值 的 误差 越 来 越 小 。 

学 习 率 在 类 神经 网 络 的 训练 过 程 中 是 一 个 非常 重要 的 参数 ， 学 习 率 影响 着 类 神经 网 络 
收敛 的 速度 ， 若 学 习 率 选择 较 大 则 类 神经 网 络 收敛 的 速度 较 快 ， 但 其 适应 性 将 会 降低 ; 反 
之 ， 较 小 的 学 习 率 会 使 得 类 神经 网 络 的 收敛 速度 变 慢 ， 但 却 更 加 稳定 。 选 择 太 大 或 太 小 的 
学 习 率 对 类 神经 网 络 的 训练 都 有 不 良 的 影响 。 

在 类 神经 网 络 的 训练 过 程 中 ， 虽 然 类 神经 网 络 的 输出 已 经 与 所 要 求 的 数值 接近 ， 但 对 
于 非 训 练 样本 的 输入 ， 并 不 知道 会 得 到 何 种 输出 。 因 此 必须 使 用 另 一 组 类 神经 网 络 从 未 见 
过 的 样本 ， 对 经 过 训练 的 类 神经 网 络 测试 其 结果 是 否 与 所 要 求 的 值 接近 ， 这 种 用 途 的 样本 
称 为 测试 样本 。 如 果 测 试 样本 与 训练 样本 的 预测 效果 差异 过 大 ， 表 示 类 神经 网 络 模型 缺乏 
适应 性 ， 必 须 重 新 进行 训练 ， 或 者 调整 模型 结构 。 


2.6 决策 树 分 析 


决策 树 是 进行 分 类 和 预测 的 常用 方法 ， 采 用 树枝 状 来 展现 数据 受 各 变量 影响 情形 的 预 
测 模型 ， 能 利用 树 形 图 的 分 割 自动 确认 和 评估 分 割 。 由 树 形 图 可 获取 个 体 中 的 最 佳 聚 类 ， 
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再 通过 收益 图 ， 可 方便 地 在 不 同 判别 变量 的 分 割 点 之 间 进 行 成 本 和 效益 的 比较 ， 并 找 出 最 
佳 获 利 的 分 割 临界 点 。 决 策 树 和 类 神经 网 络 不 同 ， 决 策 树 中 产生 的 规则 可 以 用 文字 或 数字 
给 出 明确 的 表达 。 

在 数据 分 析 中 ， 常 会 遇 到 变量 间 不 仅 存在 相关 性 ， 而 且 存在 交互 的 影响 关系 。 当 两 个 
或 两 个 以 上 变量 间 存 在 交互 影响 时 ， 某 一 变量 数值 改变 所 引起 的 反应 ， 将 受制 于 其 他 变量 
数值 的 大 小 。 在 商业 上 ， 研 究 人 员 通 常 不 能 确定 哪儿 个 变量 间 存 在 交互 影响 关系 ， 如 果 预 
测 变量 数目 众多 ， 模 型 就 会 变 得 庞大 复杂 ， 加 上 预测 变量 间 的 交互 影响 关系 可 能 为 乘法 关 
系 ， 也 可 能 为 非 乘 法 关系 ， 大 大 增加 了 建 模 的 难度 。 这 时 使 用 决策 树 分析 ， 就 可 以 较 好 地 
发 现 变 量 之 间 的 交互 关系 。 常 用 的 决策 树 方法 有 CHAID (chi squared automatic interaction 
detection), CHAID 只 能 处 理 类 别 变量 ， 如 果 是 连续 变量 必须 采用 离散 化 处 理 ， 先 转换 数据 
成 为 类 别 变 量 ， 才 可 以 使 用 。CHAID 的 基本 分 析 过 程 如 下 〈 黄 登 源 ，2003 ): 

CD 针对 每 一 变量 计算 其 所 有 可 能 把 原样 本 分 成 两 个 部 分 的 分 割 方 式 , 以 找 出 一 个 最 佳 
分 割 方式 。 所 谓 “ 最 佳 ” 是 指数 据 经 过 分 割 后 ， 准 则 变量 的 组 间 差 异 为 最 大 。 假 设 了 代表 
准则 变量 ， 样 本 数 为 »， 如 果 对 预测 变量 一 无 所 知 ， 则 了 可 为 最 佳 估 计 值 ， 而 了 的 误差 平 


方 和 为 : 
PE =y) -Yx -nY? 
假设 将 原样 本 分 割 成 两 组 ,各 组 所 含 样本 数 为 n, 和 wn。， 各 组 准则 变量 的 平均 数 分 别 为 
FAY ， 其 误差 平方 和 为 : 


YYa,-F? -330,-X? «Ynf m 


i=l j=l i=l j=l i=l 


(Ym -nYy5- Y>, -Zy 2n? en? -nF 


i=l j=l i=l j=1 


若 通 过 分 割 ， 则 误差 平方 和 将 会 降低 ， 若 此 值 为 正 ， 表 示 m 六 + 加 w 池 大 于 nY?。 经 过 
分 割 成 两 组 后 ， 其 同 质 性 已 经 提高 ， 即 分 割 后 减少 的 误差 平方 和 为 最 大 ， 也 就 是 
max ÍnY +n, -nY°] Š 

@ 比较 各 预测 变量 在 “最 佳 分 割 方式 ”下 的 组 间 方 差 ， 然 后 找 出 一 个 组 间 方 差 最 大 的 
变量 ， 即 为 最 佳 的 预测 变量 。 

@ 通过 最 佳 预测 变量 得 到 的 最 佳 分 割 方式 把 原始 数据 分 割 成 两 组 。 

D 将 分 割 后 两 组 样本 的 每 一 组 都 作为 新 样本 ， 并 分 别 对 每 一 组 重复 上 述 步骤 ,进一步 
F 行 分 割 。 

© 重复 上 述 步 又， 直到 所 有 的 个 体 都 被 分 割 成 单独 一 组 为 止 。 

实际 应 用 中 ， 通 常事 先 确定 一 些 控制 参数 或 限制 条 件 ， 适 时 停止 分 割 过 程 。 例 如 分 割 
后 所 减少 的 准则 变量 误差 平方 和 必须 超过 所 确定 的 水 平时 才 可 以 继续 将 样本 分 割 ; 或 当 任 
一 组 样本 的 误差 平方 和 必须 大 于 所 确定 的 水 平 ， 才 可 以 继续 进一步 分 割 ， 研 究 人 员 也 可 以 
针对 原始 样本 分 割 的 组 数 加 以 给 定 , 或 依据 每 组 中 的 样本 有 多 少 笔 数 据 等 限制 条 件 来 设 定 。 


x 
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27 其 他 分 析 方 法 


一 种 可 以 应 用 于 数值 型 变量 的 决策 树 分 析 是 分 类 回归 树 ， 即 CART (classification and 
regreesion tree )。 该 算法 由 Brieman (1984) 提出 ， 采 用 来 自 经济 学 的 分 散 度量 法 。CART 
借助 一 个 输入 变量 的 函数 ， 以 递归 的 方式 不 断 地 将 不 同属 性 的 个 体 分 开 ， 最 后 同属 性 的 数 
据 将 会 被 归 入 同一 个 多 维 矩 形 区域 ， 在 每 个 区 域 中 分 别 利用 回归 的 方式 进行 拟 合 。 需 注意 
的 是 ，CART 的 层 数 不 宜 过 多 或 过 少 。 如 果 太 少 ， 即 表示 分 割 过程 太 早 结束 ， 所 构建 的 模 
型 未 必 产 生 良 好 的 分 类 规则 ， 相 反 ， 过 多 的 层次 则 表示 其 分 割 过 多 ， 所 产生 的 规则 的 分 类 
能 力 并 不 理想 。 各 种 分 析 方 法 如 表 2-1 所 示 。 


表 2-1 各 类 分 析 方 法 整理 


类 al # = i 要 
O ”根据 一 些 变量 的 数值 做 计算 ， 再 依照 结果 分 类 
分 类 Q 用 一 些 根据 历史 经 验 或 已 经 分 类 好 的 数据 来 研究 它们 的 特征 ， 然 
后 再 根据 这 些 特征 对 其 他 未 经 分 类 或 新 的 数据 做 预测 
O ”将 数据 分 类 ， 其 目的 在 于 将 类 间 的 差异 找 出 来 ， 同 时 也 将 类 别 内 
ok 成 员 的 相似 性 找 出 来 
口 “与 分 类 不 同 ， 分 析 前 并 不 知道 会 以 何 种 方式 或 依据 来 分 类 ， 所 以 
必须 要 配合 专业 领域 知识 来 解释 这 些 分 类 的 意义 
分 类 技术 传统 技术 0 因 dede oui analysis) I didis 
(统计 分 析 ) Q ”判别 分 析 (discriminant a 分 类 
口 ” 聚 类 分 析 (cluster analysis) 一 一 识别 类 组 
理论 技术 O ERE (decision tree) 一 一 用 树 型 结构 展现 数据 在 
受 各 变量 影响 的 情况 下 得 到 的 预测 模型 ,根据 对 目 
改良 技术 标 变 量 的 状态 不 同 而 建立 分 类 规则 
O 多 用 于 客户 资料 的 分 析 
口 ” 常 用 的 分 类 方法 为 CART 和 CHAID 两 种 
回归 O ”使 用 一 系列 的 数值 来 预测 一 个 连续 数值 的 可 能 值 
口 ” 可 利用 Logistic 回归 来 预测 类 别 变量 
时 间 序列 口 用 现 有 的 数值 来 预测 未 来 的 数值 
口 与 回归 不 同 ， 时 间 序 列 所 分 析 的 数值 都 与 时 间 有 关 
估计 预测 类 传统 技术 “| 口 回归 连续 变量 
(统计 分 析 ) Logistic 回 归 RARR 
理论 技术 口 ” 时 间 序 列 一 一 与 时 间 相 关 的 变量 
O 类 神经 网 络 一 一 模仿 人 脑 思 考 结构 的 数据 分 析 模 
型 , 根据 输入 变量 与 目标 变量 进行 自主 学 习 , 并 根 
据 学 习 得 到 的 知识 不 断 调整 参数 来 建立 数据 模型 


IE [eso mEERSSTRA O 


Hd 


类 a 模 型 摘 m 
口 ”传统 回归 分 析 : 优点 是 在 进行 分 析 时 无 须 限定 
模型 ， 特 别 当 变量 间 存 在 交互 效应 时 可 自动 检 
估计 预测 类 理论 技术 改良 技术 测 出 来 
Q ”类 神经 网 络 多 用 于 数据 属于 高 度 非 线性 且 变 量 
中 具有 相当 程度 的 交互 效应 的 情形 
口 ” 找 出 在 某 一 组 事务 中 会 同时 出 现 的 一 些 事务 组 合 , 例如 , 如 果 4 


MEM JE AUED Bae, MU p 出 现在 该 事件 中 的 概率 是 多 少 
wapa 。 |。 序列 分 析 与 关联 规则 不 同 的 是 ,序列 分 析 事 件 的 相关 以 时 间 因 素 
xti 
mo "- 
序列 规则 类 (统计 分 析 ) 
O HONDA ih MER UR He 
理论 技术 (if…then)” 的 逻辑 规则 对 数据 进行 细 分 ， 在 实 


改良 技术 际 运用 时 ， 如 何 界定 规则 的 有 效 性 是 最 大 的 问 
B, i 要 先 将 数据 中 发 生 次 数 太 少 的 样本 


剔除 ， 以 避免 产生 无 意义 的 规则 
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3.1 数据 挖 据 与 统计 分 析 的 不 同 


硬 要 区 分 数据 挖掘 和 统计 学 的 差异 其 实 是 没有 太 大 意义 的 ， 数 据 挖掘 有 相当 大 的 部 分 
是 源 于 统计 学 科 中 的 多 元 统计 分 析 。 但 是 为 什么 数据 挖掘 的 出 现 会 引起 各 领域 的 广泛 注意 
呢 ? 主要 原因 是 相对 于 统计 分 析 而 言 ， 数 据 挖 气 有 下 列 几 个 特性 ; 

O ”处 理 大 型 实际 数据 更 有 优势 ， 且 无 须 太 专 业 的 统计 背景 去 使 用 数据 挖掘 工具 。 

口 数据 分 析 趋 势 为 从 大 型 数据 库 抓 取 所 需 数据 并 使 用 专业 计算 机 分 析 软 件 ， 数 据 挖 

掘 的 工具 更 符合 企业 需求 。 
O 就 理论 的 基础 点 来 看 ， 数 据 挖掘 和 统计 分 析 有 应 用 上 的 差别 ， 毕 竞 数 据 挖掘 的 目 
的 是 方便 企业 用 户 使 用 而 非 给 统计 学 家 检验 用 的 。 
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若 将 data warehousing CHACA) 比喻 为 矿坑 ， 数 据 挖 气 就 是 深入 矿坑 挖 抉 的 工作 。 
毕竟 数据 挖掘 不 是 一 种 无 中 生 有 的 魔术 ， 也 不 是 点 石 成 金 的 炼金 术 ， 若 没有 丰富 完整 的 数 
据 ， 是 很 难 期 待 数据 挖 掘 能 挖掘 出 什么 有 意义 的 信息 的 。 

从 数据 仓储 挖掘 有 用 的 数据 ， 则 是 数据 挖掘 的 研究 重点 ， 但 两 者 的 本 质 与 过 程 是 两 码 
事 。 换 句 话 说， 数据 仓储 应 先行 建立 完成 ， 数 据 挖 掘 才能 有 效 进 行 ， 因 为 数据 仓储 本 身 
所 含 数据 应 是 正确 的 (不 会 有 错误 的 数据 掺 杂 其 中 )、 完 整 的 , 而 且 是 经 过 整合 的 。 因此， 
两 者 的 关系 可 以 简单 表示 为 “数据 挖掘 是 从 巨大 数据 仓储 中 找 出 有 用 信息 的 一 种 过 程 与 
技术 ”。 

数据 仓储 和 数据 库 虽 然 同 是 数据 存储 的 手段 ， 但 两 者 相差 甚 远 ， 数 据 仓储 与 数据 库 的 
比较 如 表 3-1、 表 3-2 所 示 。 


表 3-1 数据 仓储 和 数据 库 的 结构 比较 


Zo d 数据 仓储 传统 数据 库 
主要 目的 信息 取得 与 分 析 支持 每 日 交易 数据 
架构 关系 型 数据 库 管理 系统 
数据 模型 正规 划 表 格 (normalized relations) 
查询 方式 通过 OLAP 或 MOLAP 接口 SQL 
数据 形式 | 分 析 性 数据 交易 性 数据 
数据 储存 状况 历史 性 、 描 述 性 数据 经 常 改变 的 、 实 时 性 的 数据 
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表 3-2 数据 仓储 和 数据 库 的 特性 比较 


特 性 数 据 库 数据 仓储 
数据 的 时 间 性 当时 的 运算 数据 经 过 处 理 的 历史 数据 
数据 库 的 规划 方式 由 下 往 上 (bottom-up) 由 上 往 下 (top-down) 
数据 库 的 纲要 设计 个 体 一 关系 模型 配合 正规 化 星 型 纲要 (star schema) 
数据 无 重复 储存 大 量 重 复 储存 ， 并 预先 加 总 
数据 维护 者 数据 库 管 理 师 (DBA) 数据 品 管 师 (DQM) 
异动 的 频率 经 常 异动 ( 故 称 OLTP) 少 有 异动 ， 大 多 为 查询 
异动 的 数据 数量 平时 均 有 大 量 的 异动 处 理 定期 大 量 加 载 并 聚合 加 总 
效能 要 求 须 能 承受 大 量 的 更 新 要 求 查询 速度 足够 快 
查询 的 频率 少量 需求 大 量 需 求 〈 故 称 OLAP) 
查询 的 范围 Tias 相当 宽广 
查询 的 复杂 度 较 单纯 相当 复杂 
所 内 含 的 数据 量 MB 级 GB 级 
内 含 数据 的 错误 率 可 以 容忍 错误 与 缺 项 存在 极 少 错误 与 数据 缺 项 
数据 的 精细 度 存放 一 笔 交易 的 详细 数据 存放 大 量 加 总 viuh 
整合 性 依 功能 分 数据 库 ， 未 整合 整个 组 织 的 数据 完全 整 
主题 性 依 功 能 导向 区 分 数据 库 依 主 题 导向 
随时 间 变动 的 特性 很 少 会 依 时 间 流 逝 增加 内 容 依 时 间 的 流逝 而 增加 其 内 容 
暂 在 性 只 保留 目前 最 新 的 数据 完整 保留 所 有 历史 数据 
适合 构建 的 系统 关系 型 数据 库 管 理 系统 多 维 数 据 库 管理 系统 
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根据 Fayyad 等 人 (1996) 对 知识 发 现 (knowledge discovery in database) 的 定义 一 一 


它 是 指 从 数据 中 提取 有 效 、 全 新 、 潜 在 有 用 、 最 终 可 被 理解 的 模式 的 
的 流程 ， 其 最 终 目 标 是 了 解数 据 的 模式 〈patterns )。 


-个 非 细 琐 CnontriviaD 


知识 发 现 的 主要 步骤 如 图 3-1 所 示 。 


数据 来 源 : Fayyad etal. (1996) 


其 流程 步骤 


: 先 理解 要 应 


数据 y: 
suus m 变换 
SS » llc 


预 处 理 
目标 数据 集 数据 集 |: 数据 集 


规则 模式 


有 用 的 
知识 


7] 3-1 ”知识 发 现 流程 (The KDD Process) 


的 领域 ， 熟 悉 相关 知识 ， 接 着 建立 目标 数据 集 ， 并 专注 


所 选择 Ca 数据 子 集 ， 再 从 目的 数据 中 做 前 置 处 理 (pre-processing)， 去 除 错误 或 不 


一 致 的 数据 ; 然后 作 数 据 简 化 与 转换 工作 (transformation); 再 经 


— I r^ 


数据 挖掘 的 技术 程序 生 
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成 为 模式 (patterns )、 做 回归 分 析 或 找 出 分 类 型 态 ， 最 后 经 过 解释 /评估 Cinterpretation/ 
evaluation) 成 为 有 用 的 知识 。 这 些 程序 是 一 个 循环 的 关系 ， 一 直 重 复 的 步骤 ， 最 后 才 得 到 
些 有 用 的 知识 。 所 以 ，KDD 是 一 连 串 的 程序 ， 数 据 挖 掘 只 是 其 中 的 一 个 步骤 而 已 。 


3.4 OLAP 与 数据 挖掘 的 关系 


所 谓 OLAP (online analytical process), 是 指 由 数据 库 所 链接 出 来 的 在 线 查询 分 析 程 序 。 
简单 地 说 ，OLAP 是 由 使 用 者 所 主导 ， 使 用 者 先 有 一 些 假设 ， 然 后 利用 OLAP 来 查证 假设 
ETR: 而 数据 挖掘 则 是 用 来 帮助 使 用 者 产生 假设 。 所 以 在 使 用 OLAP 或 其 他 query 的 
工具 时 ， 使 用 者 是 自己 做 探索 (exploration)， 但 数据 挖掘 是 用 工具 帮助 做 探索 。 所 以 可 以 
认为 : 数据 挖掘 用 于 产生 假设 ，OLAP 则 用 于 查证 假设 。 

数据 挖掘 常 能 挖掘 出 超越 归纳 范围 的 关系 ， 可 以 找 出 甚至 不 会 被 怀疑 过 的 数据 型 样 与 
关系 的 特性 ， 事 实 上 已 超越 了 人 们 经 验 、 教 育 、 想 象 力 的 限制 。 而 OLAP 仅 能 利用 人 工 查 
询 及 可 视 化 的 报表 来 确认 某 些 关系 。OLAP 与 数据 挖掘 的 比较 如 表 3-3 所 示 。 


表 3-3 OLAP 与 数据 挖掘 比较 


在 线 分 析 处 理 COLAP) 数据 挖掘 (data mining) 
公司 邮寄 广告 顾客 回复 率 多 少 哪些 顾客 容易 回复 公司 的 邮寄 广告 
新 产品 销售 与 客户 数量 何 种 类 型 的 老 客户 较 倾 向 购买 公司 新 产品 
公司 上 年 度 十 大 客户 公司 上 年 获 利 度 最 高 的 十 大 客户 
哪些 客户 上 个 月 并 未 续 约 哪些 客户 较 可 能 在 未 来 的 半年 中 不 再 续 约 
哪些 客户 贷款 逾期 未 付 哪些 客户 贷款 较 易 逾期 支付 
上 一 季度 地 区 性 销售 报告 明年 各 地 区 产品 的 预测 销售 收入 
昨日 生产 线 次 品 率 如 何 提高 产品 的 合格 率 


数据 来 源 ， Noonan 2000 


3.5 数据 挖 据 与 机 器 学 习 的 关系 


机 器 学 习 这 门 学 科 所 关注 的 问题 是 : 计算 机 程序 如 何 随 着 经 验 积 累 自动 提高 性 能 ? 近 
年 来 ， 机 器 学 习 被 成 功 地 应 用 于 很 多 领域 ， 从 检测 信用 卡 交 易 欺 诈 的 数据 挖掘 程序 ， 到 获 
取 用 户 阅读 兴趣 的 信息 过 滤 系 统 ， 再 到 能 在 高 速 公路 上 自动 行驶 的 汽车 。 同 时 ， 这 个 学 科 
的 基础 理论 和 算法 也 有 了 重大 的 进展 。 

在 数据 挖掘 领域 ， 机 器 学 习 是 相当 重要 的 组 成 部 分 。 机 器 学 习 中 的 大 量 算法 都 被 用 于 
大 型 数据 库 的 探索 分 析 和 模式 识别 。 例 如 : 决策 树 学 习 算 法 已 经 被 美国 国家 航空 和 航天 局 
(NASA) 用 来 分 类 天 体 ， 数 据 来 自 第 二 帕 洛 马 天 文 台 太空 调查 (Fayyad et al，1995)。 这 
一 系统 现在 被 用 于 自动 分 类 太空 调查 中 的 所 有 天 体 ， 其 中 包含 了 3TB 的 图 像 数据 。 

机 器 学 习 在 很 多 应 用 领域 被 证 明 有 很 大 的 实用 价值 。 它 们 在 以 下 方面 特别 有 用 : 


= 
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(1) 数据 挖掘 问题 ， 即 从 大 量 数 据 中 发 现 可 能 包含 在 其 中 的 有 价值 的 规律 ， 例 如 ， 从 患者 
数据 库 中 分 析 治 疗 的 结果 ， 或 者 从 财务 数据 中 得 到 信用 贷款 的 普遍 规则 ; (2) 在 某 些 困 难 
的 领域 中 ， 人 们 可 能 还 不 具有 开发 出 高 效 的 算法 所 需 的 知识 ， 例 如 ， 从 图 像 库 中 识别 出 人 
JS; (o 计算 机 程序 须 动态 地 适应 变化 的 领域 ， 例 如 原料 供给 在 变化 的 环境 下 自动 进行 生 
产 过 程控 制 。 


3.6 网络 挖 据 与 数据 挖掘 的 关系 


网 络 挖 气 (web mining) 可 以 看 做 数据 挖掘 应 用 在 网 络 数据 的 泛称 。 利 用 数据 挖掘 技 
术 可 以 进行 深入 的 网 络 访问 数据 分 析 ， 并 建立 精准 的 预测 模型 ， 实 现 智 能 化 的 个 人 网 络 
服务 。 
网 络 挖掘 除了 统计 对 网 页 浏览 率 以 及 访客 人 次 等 日 志文 件 的 分 析 外 ， 只 要 经 由 网 络 上 
的 商品 零售 、 财 务 服务 、 通 信服 务 、 医 疗 咨询 、 远 距 教学 等 由 网 络 传送 的 数据 ， 都 可 以 归 
入 到 网 络 挖掘 的 范围 ， 甚 至 可 以 整合 off-line 数据 和 on-line 数据 ， 实 施 更 大 规模 的 模型 预 
测 与 估计 。 和 凭借 因特网 的 便利 性 与 渗透 力 ， 再 借助 网 络 行为 的 可 追踪 性 与 高 互动 性 ， 网 络 
挖掘 完全 有 可 能 成 为 实现 一 对 一 营销 理念 的 最 佳 技术 和 工具 。 
整体 而 言 ， 网 络 挖掘 具有 以 下 特性 : 
口 数据 收集 容易 且 不 引信 人 注意 。 网 络 用 户 进入 网 站 后 的 一 切 浏览 行为 与 过 程 都 可 随 
时 记录 。 
O 以 交互 式 个 性 化 服务 为 终极 目标 。 除 不 同 访客 显示 定制 的 网 页 外 ， 对 于 不 同 的 网 
络 用 户 也 应 该 提供 不 同类 型 的 浏览 服务 。 
O 可 整合 其 他 off-line 数据 ， 让 网 络 挖掘 的 功能 发 挥 更 为 充分 。 
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41 数据 挖掘 商业 软件 的 分 类 


数据 挖掘 工具 的 软件 市 场 大 致 可 分 为 三 类 。 
1. 通用 分 析 目 的 的 软件 包 

SQL 2005 

SAS Enterprise Miner 

IBM Intelligent Miner 

Unica PRW 

SPSS Clementine 

SGI MineSet 

Oracle Darwin 

Angoss KnowledgeSeeker 

2. 针对 特定 功能 或 行业 而 研发 的 软件 包 
KD1 (针对 零售 业 ) 

Options & Choices 〈 针 对 保险 业 ) 

HNC〈 针 对 信用 卡其 诈 或 呆账 检测 ) 
Unica Model 1 (针对 营销 业 ) 

3. 整合 DSS/OLAP/Data Mining 的 大 型 分 析 系统 


Cognos Scenario and Business Objects 


42 主要 软件 的 介绍 


以 下 介绍 一 般 常 用 的 数据 挖掘 工具 的 分 类 ， 如 表 4-1 所 示 。 
表 4-1 常用 数据 挖掘 工具 
分 析 工 具 x x 代表 性 产品 


0 CBR Express 
在 关系 型 数据 库 中 提供 一 个 means 找 出 record D) Esteen 
以 发 现 类 似 规范 的 记录 或 一 般 记 录 D) Kate-CBR 
L] The Easy Reasoner 


case-based reasoning 
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续 表 
分 析 T 具 E xX 代表 性 产品 
Alterian 
其 目标 是 从 不 同 的 角度 ， 让 信息 以 图 形 EE 
"m 方式 显示 ， 使 用 户 容易 和 快速 地 使 用 。 Xu xn 
ai 此 工具 把 不 同 数据 层次 加 以 集合 或 I s 
总 ， 让 用 户 快速 地 了 解 V 
SPSS Diamond 
Visual Insight 
Š š: " m CubiCalc 
模糊 理论 积极 承认 人 的 主观 性 问题 的 存 
FuziCalc 


fuzzy query and analysis 


knowledge discovery 


neural networks 


顾客 关系 是 指 组 织 


评估 四 个 方面 的 相关 问题 ， 有 效率 地 从 让 


在 ， 进 而 以 模糊 集合 来 处 理 不 易 量化 的 
问题 ， 故 能 找 出 意 想不到 的 信息 


这 些 工 具 特别 设计 以 便 确 认 那 些 已 存在 
变量 问 的 显著 关系 ， 也 就 是 当 它们 可 能 
有 多 重 关系 时 ， 特 别 有 用 。 这 些 数据 挖 
掘 工具 能 帮助 指出 庞大 变量 问 的 关系 ， 
发 现 讶 点， 创造 巨大 的 商机 


类 神经 网 络 技术 的 目标 是 发 现 与 预测 数 
据 的 关系 ， 与 传统 统计 方法 的 区 别 是 ， 
它 可 以 训练 学 习 发 现 的 关系 ， 而 且 可 适 
用 于 线性 与 非 线性 的 情况 ， 并 可 以 弥补 
数据 质量 较 差 的 情况 ， 而 处 理 出 质量 不 
错 的 信息 来 


4.3 顾客 关系 管理 


DoOOoOooOoooooOooOooOooOooOooOOOOODOOOOOODO 


Fuzzy TECH for business 


Answer tree 

CART 

DARWIN 

Enterprise Miner 
DataEngine 

BackPack 

BrainMaker 

Loadstone 
NeuFrame/NeuroFuzzy 
Neural network Browser 
Neural connection 
Neural network Utility 
Neuralyst For Excel 


与 其 顾客 间 存 在 的 各 种 互动 关系 。 顾 客 关系 管 理 (CRM) 不 仅 可 以 
提升 企业 与 顾客 间 的 互动 关系 ， 同 时 也 可 以 通过 互动 关系 来 搜集 顾客 数据 。 
顾客 关系 管理 并 非 信息 科技 ， 因 此 企业 主 应 该 了 解 在 寻找 合适 的 顾客 关系 管理 软件 的 
过 程 中 ， 着 重 于 已 有 顾客 关系 管理 层面 的 考虑 ， 而 非 寻找 顾客 关系 管理 的 解决 方案 。 因 为 
任何 一 种 顾客 关系 管理 软件 都 不 可 能 彻底 解决 企业 与 顾客 间 关 系 的 维系 与 建立 。 完 整 的 
CRM 运作 机 制 在 相关 的 硬 软 件 系 统 能 够 提供 全 面 完 善 的 支持 之 前 , 都 有 太 多 的 数据 准备 工 
与 分 析 工 作 需 要 进行 。 企 业 通过 数据 挖掘 可 以 分 别 对 策略 、 目 标定 位 、 操 作 效 能 与 测量 


关键 、 最 重要 的 答案 ， 从 而 建立 真 ] 


一 一 2 三/ 


生 场 和 客户 搜集 累积 的 数据 中 挖掘 出 对 客户 而 言 最 
E 的 以 客户 需求 为 出 发 点 的 客户 关系 管理 。 
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数据 挖掘 应 用 于 CRM 的 主要 方式 对 应 于 缺口 分 析 Cgap analysis) 有 三 个 部 分 : 

@ 针对 客户 获取 的 缺口 acquisition gap)， 可 利用 客户 档案 〈customer profile). 找 出 
客户 的 一 些 共同 特征 ， 并 深入 了 解 客 户 ， 通 过 聚 类 分 析 对 客户 进行 分 群 后 再 利用 模式 分 析 
预测 哪些 人 可 能 成 为 客户 ， 帮 助 营销 人 员 找 到 正确 的 营销 对 象 ， 进 而 降低 成 本 ， 也 提高 了 

@ 针对 销售 提升 的 缺口 (sales gap)， 可 利用 购物 篮 分 析 客户 的 消费 特征 ， 找 出 哪些 产 
品 是 客户 最 容易 一 起 购买 的 ， 或 是 利用 序列 分 析 预 测 客户 在 买 了 某 产 品 后 ， 在 多 久之 内 会 
买 另 一 产品 等 。 利 用 数据 挖掘 可 以 帮助 企业 定制 更 为 有 效 的 商品 组 合 、 产 品 推荐 、 进 货 量 
或 库存 量 ， 甚 至 是 如 何 摆设 货架 和 商品 等 ， 同 时 也 可 以 用 来 评估 促销 活动 的 成 效 。 

© 针对 客户 保留 的 缺口 (retention gap)， 在 商业 竞争 中 ， 常 会 看 到 一 些 客户 从 原来 的 
商家 转 入 到 其 竞争 对 手 的 商家 。 通 过 分 析 这 些 转 移 的 客户 群 资料 ， 得 出 客户 流失 的 基本 特 
征 ， 就 可 以 在 现 有 客户 群 中 识别 出 可 能 转向 的 客户 ， 然 后 设计 一 些 保留 措施 以 预防 客户 


44 ”数据 挖 据 的 行业 应 用 


有 关 数 据 挖 掘 的 行业 应 用 如 表 4-2 所 示 。 
表 4-2 ”数据 挖掘 的 行业 应 用 


行业 领域 具体 应 用 
信用 卡 公司 可 使 用 数据 挖 据 来 设 定 信用 卡 额度 、 购 买 授权 决定 、 分 析 持 卡 人 的 购买 


信用 卡 业 。 | 行为 、 检 测 诈骗 行为 等 
2 利用 销售 数据 ， 实 施 促销 活动 ， 或 评测 广告 宣传 的 效果 ， 利 用 购物 做 分 析 来 了 解 质 
客 购买 行为 和 偏好 
证 券 分 析 师 广泛 使 用 数据 挖 据 来 分 析 大 量 的 财务 数据 以 建立 交易 及 风险 模型 来 发 民 
金融 业 ipi 
投资 策略 
-— BAJERE, HUGE OPER THESE MPI UND A I 


款 活动 、 定 制 金融 产品 ;进行 客户 管理 以 寻找 新 的 客户 及 加 强 客户 忠诚 度 

使 用 数据 挖 据 可 节省 运营 成 本 并 且 能 够 精确 取得 目标 顾客 、 减 少 通话 数量 ， 且 可 以 
直销 业 增加 成 功 通 话 的 比率 ， 利用 数据 挖掘 分 析 顾 客 群 的 消费 行为 与 交易 记录 ， 结 合 基本 
数据 ， 实 现 市 场 分 割 

数据 挖 据 已 经 广泛 应 用 于 制造 业 的 流水 线 设 计 。 例 如 ， 使 用 数据 挖掘 来 检测 潜在 的 


wt 质量 问题 ， 减 少 次 品 
电信 业 使 用 数据 挖掘 ， 电 信 公 司 可 以 提供 给 顾客 符合 其 需求 的 定制 服务 
保险 业 利用 数据 挖 据 技 术 来 发 现 新 的 投保 客户 ， 减 少 客户 流失 ， 还 可 以 有 效 检测 保险 欺诈 
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Excel 2007 数据 挖掘 模块 介绍 


安装 与 设 定 Excel 2007 数据 挖掘 加 载 项 
Excel 2007 数据 挖掘 入 门 
决策 树 

贝 叶 斯 概率 分 类 

关联 规则 

聚 类 分 析 

时 序 聚 类 

线性 回归 

Logistic 回归 

类 神经 网 络 

时 间 序 列 分 析 

DMX 介绍 
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51 系统 需求 


在 安装 Excel 2007 数据 挖掘 加 载 项 前 ， 需 要 了 解 相 关系 统 的 软 硬 件 配置 标准 。 其 配置 


如 下 : 
a 


a 
a 
a 


操作 系统 : Windows XP SP2, Windows Vista, Windows 2000 SP4, Windows 2003 
SPI. 

Excel 2007: Professional. Professional Plus. Ultimate, Enterprise. 

硬盘 空间 : 至 少 40MB 可 使 用 空间 。 

SQL Server 2005: SP1、SP2、RTM。 注 意 : 在 同一 台 计算 机 上 ， 安 装 数据 挖 据 加 
载 项 与 SQL Server 2005 时 ，SQL Server 2005 SP2 的 CTP (Community Technology 
Preview) 版 本 与 数据 挖掘 加 载 项 是 无 法 正常 运作 的 。 

SQL Server 2005 Analysis Services: 安装 数据 挖掘 加 载 项 必须 连接 SQL Server 
2005 Analysis Services 才能 正常 运行 。 支持 Analysis Services 的 SQL 2005 版 本 有 : 
Enterprise Edition SP1、SP2、RTM，Standard Edition SP2. 

.NET: Microsoft.NET Framework 2.0. 

旧版 本 删除 : 若 在 2007 年 3 H 21 日 前 安装 过 Office 2007 数据 挖掘 加 载 项 ， 则 必 
须 删 除 后 再 重新 安装 。 


52 开始 安装 


数据 挖掘 加 载 项 安装 文件 可 从 微软 官方 网 站 的 下 载 中 心 下 载 ， 下 载 网 址 为 http://www. 
microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=7c76e8df-8674-4c3b-a99b- 
55b17f3c4c51. 

Stepl: Xj ct; B SQLsenver2005 DMAddin msi 图 标 。 

Step2: 弹出 【欢迎 使 用 SQL Server 数据 挖掘 外 接 程序 安装 向 导 】 窗 口 ， 如 图 5-1 所 
示 ， 单 击 【下 一 步 】 按 钮 。 

Step3: 弹出 许可 协议 窗口 ， 如 图 5-2 所 示 ， 选 中 【我 同意 许可 协议 中 的 条 款 】 单 选 按 
钮 ， 单 击 【下 一 步 】 按 钮 。 

Step4: 在 如 图 5-3 所 示 的 【注册 信息 】 窗 口中 输入 姓名 及 公司 名 称 ， 单 击 【下 一 步 】 


按钮 。 


Step5: 在 如 图 5-4 所 示 的 【功能 选择 】 窗 口中 ， 分 别 右 击 【Excel 数据 挖掘 客户 端 】 


IE B | 692007 数据 挖 握 完 全 手册 


和 【Visio 数据 挖掘 模板 】 选 项 ， 在 弹出 的 快捷 菜单 中 选择 【安装 此 功能 到 本 地 硬盘 上 】 命 
S, RAREZA], Ai LFP] ik 
x| 
> XE SQL Server 数据 挖 据 外 接 程 序 


a 


警告 : 本 程序 受 版 权 法 /著作 权 法 和 国际 公约 保护 。 


m 


图 5-1 【欢迎 使 用 SQL Server 数据 挖掘 外 接 程序 安装 向 导 】 窗 口 


请 仔细 阅读 以 下 许可 协议 。 


MICROSOFT 软 件 许 可 条 款 3 


MICROSOFT SQL SERVER 2005 DATA 
MINING ADD-INS FOR OFFICE 2007 


| 本 许可 条 款 是 Microsoft Corporation (或 您 所 在 地 的 Microsoft 
Corporation 关联 公司 ) 与 您 之 间 达 成 的 协议 。 请 阅读 本 条 款 的 内 容 。 ES 
ENERE ER HOMARA ah (emn wound 


S 能 同意 许可 二 议 币 卫 党 对 (有 ] 
个 我 不 同意 许可 协议 中 的 条 款 (D) 


gem M 


图 5-2 许可 协议 窗口 
xi 


注册 信息 


在 下 面 的 字段 中 输入 您 的 姓名 以 及 单位 名 称 。 


姓名 
周一 一 一 一 一 一 
公司 : 

F— TT 


«ERO 取消 


图 5-3 【注册 信息 】 窗 口 
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也 二 crosoft SQL Server 2005 SRRI ERARE 
功能 选择 


D UODEBTZERDRMUBE D. 
请 选择 要 安装 的 程序 功能 。 = IODNDWORHORTDBSUERANGER t. — | 


ERROR ERAN; 
单 击 以 下 列表 中 的 图 标 更 改 功能 后 N 
- pe SQL Server | 


2005 Office 2007 
MEIRE Feral 


Excel 表 分 析 工具 
EB Excel LA Lad 
= 


-|ESSIEXAIA 


安装 路 径 一 


C:\Program Files\Microsoft SQL Server 2...V 浏览 四. 
BRAAD... 


m m 


5-4 【功能 选择 】 窗 口 


Step6: 弹出 如 图 5-5 所 示 的 【准备 安装 程序 】 窗 口 ， 单 击 【 安 装 】 按 钮 。 


T oft SQL Server 2005 SABRIER S x| 
淮 备 安装 程序 


安装 程序 已 就 绪 ， 可 以 开始 安装 。 


>] 
单 击 “ 安 装 ” 开 始 安装 。 


Apte 请 单 击 “ 上 一 步 ”。 单 击 RA” 可 退出 安装 
e 


-cr-»m n s | 


图 5-5 【准备 安装 程序 】 窗 口 


Step7: 当 【 完 成 】 按 钮 为 可 选 状态 时 ， 说 明 已 经 安装 完成 了 ， 如 图 5-6 所 示 。 


Wi Microsoft SQL Server 2005 SIRPATHE TEASEE 


x| 
正在 安装 SQL Server SRBEEKDHEBUT E I SQL Server 数据 控 据 外 按 程 序 * 
正在 安装 所 选 的 程序 功能 。 
a 
Ess C LG SOL Server #RE38 ede 

4 RUBSERSE NL Server fHEICIUHRRIT, WAR. RIED 

状态 : 

正在 更 新 组 件 注册 表 

E 4 j 

ES | TS | — [J s 
图 5-6 ”安装 完成 


-729 
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53 完成 安装 验证 


安装 完成 后 的 数据 挖掘 加 载 项 ， 可 从 【开始 】 菜 单 的 【所 有 程序 】 中 找到 新 增加 的 
[Microsoft SQL Server 2005 数据 挖掘 加 载 项 】。 安 装 的 功能 选择 默认 有 : Excel 数据 表 分 
析 工具 、 服 务 器 组 件 公 用 程序 。 因 为 我 们 在 安装 时 选择 安装 所 有 功能 ， 所 以 会 出 现 以 下 的 
功能 : 


ū Data Mining Visio Template. 

OQ 服务 器 组 件 公 用 程序 。 

口 开始 。 

口 说 明和 文件 集 。 

口 范例 Excel 数据 。 

54 组 件 设 定 

在 使 用 数据 挖掘 加 载 项 前 , 必须 先 确认 是 否 已 经 连接 Ë Mud ig EE 

设 定 到 SQL Server 2005 Analysis Services 数据 库 。 连接 设 CQ watas 


K 服务 器 配置 实用 工具 


定 的 方式 可 以 选择 【服务 器 配置 实用 工具 】 或 者 【开始 】 
令 ， 其 操作 过 程 类 似 ， 这 里 如 图 5-7 所 示 选 择 【 开 始 】 
命令 。 
Step1: 执行 【开始 】 命 令 。 
Step2: 选择 要 连接 的 SQL Server 2005 Analysis Services 实例 ， 这 里 选中 第 二 个 单 选 按 
Hl. jiii — Services 数据 库 。 单 击 【下 一 步 】 按 钮 ， 如 图 5-8 所 示 。 


5-7 ”选择 【开始 】 命 令 


EJ | erenekitinse rtm 


W f: š: Microsoft SQL Server 2005 Office 2007 数据 控 源 外接 程序 

excel ESTA 

BXSBAURA MIROR RS qs 
RAZTLPENUS 


^n 


eaS Sa 


pc 
Se RS NEA, E Den NS 
E: meae 


FEAF SQL Server Analysis FENMEERLFRE SAN. 


EREA Miosan SOL Seer as 
ARNE. RI EUR TETRA. 
mes 

EY Vo URS RCTLICHUETERUR 


了 解 详细 信息 


ASA cune. att Hai an 
E 

z 后 
ee OUO ARARE RE 
C FR mrssctt SUL Server 2008 FFAN 


C Wisma EHE iwipin 


ce | [rao > Ll 


5-8 选择 要 连接 的 SQL Server 2005 Analysis Services 实例 
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Step3: 执行 服务 器 配置 实用 工具 ， 数 据 挖掘 加 载 项 安装 后 的 配置 工具 目录 Microsoft. 
SqlServer.DataMining.Office.ServerConfiguration.exe 会 保存 在 C:\Program Files\Microsoft SQL 
Server 2005 DM Add-Ins 数据 夹 内 。 选 择 该 程序 以 运行 连接 设 定 ， 如 图 5-9 所 示 。 


这 些 外 持 程 序 是 什么 ? 


SQL Server 2005 Office 2007 RUR 
FAAET REPARERA: 
利用 它们 提高 分 析 质 量 。 


Data Mining Add-Ins for Office AN 3 | 


B 


您 已 过 选择 使 用 自己 管理 的 Wicrosoft SQL Server 2005 Analysis Services 数据 库 - 避风 六 加 


只 需 再 完成 一 个 步 玻 ， 即 可 开始 使 用 Excel 数据 挖 握 外 按 程序 。 Pxce 表 分 析 工 具 
通过 乎 击 儿 次 好 标 ， 即 可 检测 和 分 析 数据 中 全 


步骤 1. 配置 Microsoft SQL Server 2005， 以 便 Microsoft SQL Server 2005 Excel 2007 $ 的 关键 影响 因素 ， 突 出 显示 与 其 余数 据 不 符 的 | 


据 挖 据 外 按 程序 正常 工作 


BUR UL ESHRECTEETE HS BERE T A. I Analysis Services HIDE Bp 可 以 在 本 地 计算 机 E NE 

lb BHDGREATAHRÉDUGHRILEXESURAIERTA. RINERTIARTSE — | wl 数据 接 所 客户 演 

z m se zs Analysis Services. ELTE Microsoft SQL Server 2005 Office 2007 数据 控 所 外 MAT TASNHE, SURTAY Analysis 
HENTIM. Services BEFFA JAANE, (E Excel 内 

SETENE EGKPMENIA. MA UNUS RNN UK M 

CAProgram Files\Microsoft SQL Server 2005 DM Add- Visio 数据 控 据 模板 

InsWicrcsoft SolServer.DataMining Office ServerConfiquretionexe Von? Visio ABI Rte 

SUPE 1, ME FATER EH. = | "Meus " 

Kiso] a] sa | 


5-9 ”运行 服务 器 配置 工具 


Step4: 这 里 相当 于 重新 选择 【服务 器 配置 实用 工具 】 命 令 。 开 始 进 入 数据 挖掘 加 载 项 
配置 向 导 设 定 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 5-10 所 示 。 


5 Office 2007 数据 挖 振 外 接 程 序 E Anl xl 
> 欢迎 使 用 SQL Server 2005 数据 挖掘 外 接 程序 
配置 向 导 


N : 
N 使 用 本 向 导 ， 您 可 以 配置 一 个 SQL Server 2005 Analysis Service z 


实例 ， 以 启用 SQL Server 2005 Office 2007 数据 挖掘 外接 程序 所 
需 的 服务 器 功能 。 


SQL Server 2005 数据 控 气 外 接 程序 借助 于 SQL Server 2005 
Analysis Services 内 置 的 强大 数据 挖 气功 能， 为 您 所 在 组 织 的 
Excel 2007 和 Visio 2007 用 户 提供 了 令 人 振 音 的 分 析 功 能 。 


单 击 " 下 一 步 "， 选 择 和 配置 SQL Server 2005 Analysis Services 实 
例 。 单 击 "取消 ”， 退 出 本 向 导 。 注 意 : 若 要 配置 Analysis Services 
实例 ， 您 需要 拥有 该 实例 的 服务 器 管理 员 特 权 。 


5-10 【欢迎 使 用 SQL Server 2005 数据 挖掘 外 接 程序 配置 向 导 】 窗 口 
Step5: 输入 要 连接 的 Analysis Services 数据 库 服务 器 名 称 ， 因 为 要 连 到 本 机 ， 故 在 【 服 
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IE B | 692007 数据 挖 握 完 全 手册 


务 器 名 称 】 文 本 框 中 输入 “localhost”， 如 图 5-11 所 示 。 单 击 【 下 一 步 】 按 钮 。 
十 


AE 1( 共 4 步 )- 连 接 到 Analysis Services 
选择 为 支持 数据 挖 所 外 接 程序 配置 的 服务 器 实例 


服务 器 名 称 (E) : 


身份 验证 (TD) : 


图 5-11 输入 服务 器 名 称 
Step6: 弹出 【正在 连接 到 服务 器 localhost...】 窗 口 ， 如 图 5-12 所 示 。 


图 5-12 【正在 连接 到 服务 器 localhost...】 窗 口 


4i SQL Server Analysis Services 未 运行 ， 则 会 出 现 无 法 连接 服务 器 的 信息 
gases Sa SS MON OM d GAS D , 将 Analysis Services 服务 启动 后 , 单 击 【 下 一 步 】 
按钮 。 

Step7: 是 否 要 建立 临时 挖掘 模型 。 所 建立 的 临时 挖掘 模型 会 在 断 开 连 接 后 自动 移 除 。 
当 启 用 临时 挖掘 模型 功能 时 ， 相 应 地 会 增加 使 用 内 存 占用 量 及 硬盘 空间 。 若 允许 建立 ， 则 
选中 【允许 创建 临时 挖掘 模型 】 复 选 框 ， 若 不 允许 建立 ， 则 取消 选中 该 复 选 框 。 单 击 【 下 
一 步 】 按 钮 ， 如 图 5-13 所 示 。 

Step8: 建立 数据 库 ， 这 里 是 指数 据 挖掘 加 载 项 所 使 用 的 数据 库 ， 可 以 直接 使 用 现 有 的 
数据 库 ， 或 建立 新 的 数据 库 。 例 如 建立 一 个 新 的 数据 库 名 称 为 DMAddinsDB-Test。 在 【 数 


一 一 3 一 


5x Dds i 


据 库 名 称 】 文 本 框 中 输入 “DMAddinsDB-Test”， 单 击 【 下 一 步 】 按 钮 ， 如 图 5-14 所 示 。 


3 h07 数据 控 拓 外接 程 序 
PR 2 共 4 2): 允许 创 建 临时 挖 扬 模 型 


配置 SQL Se e 20 接 程 序 


JR 3 Qt 439) 为 外 持 程 序 用 户 创建 数据 库 
YT 


图 5-14 创建 新 数据 库 
Step9: 用 户 的 权限 ， 授 权 使 用 数据 挖掘 加 载 项 数据 库 。 选 中 【将 数据 库 管 理 权限 授予 
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外 接 程序 用 户 】 复 选 框 ， 此 权限 让 使 用 者 能 够 新 增 、 修 改 、 删 除 对 象 等 。 单 击 【 完 成 】 按 
# Wn 5-15 所 示 。 


人 《 配置 SQL Server 2005 Office 2007 数据 控 气 外 接 程 房 = D| x| 


步骤 4( 共 4 步 }- 将 相应 权限 授予 外 接 程序 用 户 
允许 外 接 程 序 用 户 在 服务 器 数据 库 中 创建 永久 模型 


为 了 在 服务 器 上 创建 永 久 模 型 ， 用 户 必须 是 数据 库 管理 员 。 


如 果 授 予 某 用 户 对 特定 数据 库 的 数据 库 管理 特权 ， 则 区 许 该 用 户 创建 新 对 象 、 修 改 和 齐 除 现 有 对 和 龟 ， 其 中 包括 
该 数据 库 中 用 户 创 建 的 对 象 。 但 是 ， 该 用 户 不 能 影响 其 他 数据 库 中 的 对 象 。 为 了 更 进一步 地 隔离 ， 最 好 为 每 个 
用 户 创建 一 个 单独 的 数据 库 。 


如 果 您 在 上 一 步 选择 了 现 有 数据 库 ， 请 确保 所 选用 户 能 够 管理 数据 库 中 的 现 有 对 象 和 其 他 用 户 创建 的 新 对 象 。 


数据 库 名 称 : [pmaddinsDB-Test — 


指定 要 添加 的 用 户 或 组 (3) : 
SQLAI\Administrator 
FMW... 删除 人) 


< 上-- 步 四 m | 
图 5-15 授予 用 户 权 限 
Step10: 组 件 设 定 确认 ， 如 图 5-16 所 示 每 一 个 设 定 动作 确认 成 功 ， 单 击 【 关 闭 】 按 钮 。 


Server 2005 Office 2007 数据 控 据 外 技 程 房 -joj xj 


确认 配置 向 导 成 功 /失败 


@ sesssseenemss. 


详细 信息 ; 


Coli 操作 | 状态 | 消息 
连接 到 Analysis Services 实例 localhost 成 功 
(Q inse DaddinsD6-Test 成 功 
Q esse onte 成 功 
FES 
ESO 取消 
| y 


图 5-16 组 件 设 定 确认 成 功 
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5.5 配置 完成 检查 


在 5.4 节 成 功 地 设 定 连接 服务 器 以 及 新 增 的 数据 库 ， 可 在 以 下 几 个 地 方 来 查看 。 
. SQL Server Management Studio 


Stepl: 运行 SQL Server Management Studio， 选 择 服 务 器 类 型 为 Analysis Services, Jl 
务 器 名 称 为 localhost， 单 击 【连接 】 按 钮 ， 如 图 5-17 所 示 。 


x| 
Microsoft AP Windows Server System. 
SQLServer2005 


服务 器 类 型 (T) : [Analysis Sezvices z] 
服务 器 名 称 (8) : [localhost 
身份 验证 (8) : 


用 户 各 人) : 


ENW: 


5-17 ”运行 SQL Server Management Studio 
Step2: 展开 【数据 库 】， 就 会 看 到 5.4 节 所 建立 的 数据 库 名 称 DMAddinsDB-Test, W 


图 5-18 所 示 。 


pem 
文件 (E) MD HAV IAD SOV HEC "mb 

! sermo) D ch ce Dy Qw z$ a i agbpubb-T. 
Ege -o x este ora 

连接 (0) ma r s langy =m 


|| = GB localhost (Microsoft Analysis Serv 
a am O DMAddinsDB-Test 


SQLAI ERE DIA ddinsDB-Test 


图 5-18 【数据 库 】 中 新 增 DMAddinsDB-Test 


2. Excel 2007 


启动 Excel 2007 后 ， 在 功能 选单 上 会 出 现 【数据 挖掘 】 选 项 卡 的 功能 ,如 图 5-19 所 示 。 


—35;— 


mum mem | 


Book - Microsoft Excel 


CE E E E 


5-19 功能 选单 上 出 现 【数据 挖掘 】 选 项 卡 
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第 6 章 Excel 2007 数据 挖掘 入 门 


6.1 Excel 2007 数据 挖 气功 能 介绍 


Excel 2007 数据 挖掘 功能 选项 分 成 七 大 区 块 的 工具 栏 如 图 6-1 所 示 , 七 大 区 块 功能 介绍 
如 下 。 


Bookl - Microsoft Excel -= 

® Te WA 页面 布局 At 数据 市 阅 xs HERE = @ - T 
Gud sa dp $ % 4 @& AAD AOR KAR 
RUS 清除 HE 分 估 RA 关 E o m ERE 分 类 利润 » =w em gus m ki 
Eum mE 分 区 s id 分 析 E WM Ww ER a m * m we 5s m m- 
MEE mewa 淮 隐 性 和 驻 证 模型 用 法 == 连接 ERI 


图 6-1 数据 挖掘 工具 栏 

Q “数据 准备 : 在 开始 数据 挖掘 之 前 ， 可 先 对 数据 做 单一 查看 、 清 除 整 理 数据 或 随机 
抽样 数据 。 数 据 准 备 的 方式 有 浏览 数据 、 清 除数 据 ， 以 及 为 数据 分 区 。 

Q 数据 建 模 : 开始 进 行 数据 挖掘 步骤 ， 可 以 建立 挖掘 模型 、 预 测 分 析 等 。 数 据 模 型 
化 的 方法 有 分 类 、 估 计 、 聚 类 、 关 联 、 预 测 以 及 高 级 等 。 

O 准确 性 和 验证 ， 通过 图 型 来 查看 挖掘 模型 。 图 型 有 准确 性 图 表 、 分 类 和 矩阵 和 利 

润 图 。 

模型 用 法 : 可 对 已 构建 好 的 挖掘 模型 条 件 式 查 询 其 结果 。 

TEES 可 对 已 构建 好 的 挖掘 模型 管理 其 挖掘 结构 。 

连接 : 设 定 与 追踪 Analysis Services 的 连接 。 

帮助 : 取得 数据 挖掘 加 载 项 的 使 用 说 明 。 


62 数据 挖掘 使 用 说 明 


DDODCUO 


Excel 2007 数据 挖掘 功能 选项 中 的 说 明 ， 是 针对 数据 挖掘 加 载 项 的 使 用 说 明 ， 而 Excel 
2007 软件 工具 的 说 明 是 Excel 2007 窗口 最 右边 的 小 图 标 回 ， 两 者 是 独立 的 。 数 据 挖掘 的 使 
用 说 明 功 能 除了 提供 在 线 查询 的 方式 外 ， 还 有 帮助 向 导 ， 以 及 教学 影片 ， 非 常 方便 使 用 者 


学 习 。 
6.21 目录 查询 


不 论 是 依 目录 查询 还 是 从 索引 关键 词 查询 ， 都 是 用 户 最 熟悉 的 功能 ， 如 图 6-2 所 示 。 


m O, =, & S 6 & Sw 


-inixi 


850 | 二 而 | sei a [s] | Merosort SQL Server 2005 Offce 2007 sse evite 
XUEINCT AG (Office 2007 MERRER) 


TSS N: 个 x c 


5, 


Ino SERVE 
|Excel 表 分 析 工具 = 
BETTE Ud Office 2007 YHEIEROHERIESI WIDE CUTE T-R Sis Ras, siamea 
Bees XEXEWUN7YGRIOUXNUWL REULEGTHTUURREA SIDE ESPNS 
B ARA E. SREE Microsoft Office Excel (eP1IRIE S DLIERHENGETTIT, 或 者 
h TIE 6pfagars ia Analyss Services TAPHRIELRAN. ET DHA RUERNE 
J =58 =a KEFE Microsoft Office Visio P» 
fe snamss 
BERR” 


Office SIEPI FIRAS, ICA RC RUNHAEIT U ERRIERTA RIEN. 


IRUTS zd 
EE QA]? wicrorore ser Server 2005 office 2007 REESE SBI 
E [a 
= Ë & fh o 


E 
onmes E CR— E 


SENE 


EPELARRE Se. 


分 类 [Analysis Services] 
P feise 四 


6-2 AREH 


6.2.2 开始 功能 


Office 2007 数据 挖 据 外 接 程序 可 帮助 您 执 出 存在 于 复杂 数据 中 的 模式 和 趋势 , 
交互 式 章 看 器 等 方式 将 这 些 模式 可 祝 化 ， 然 后 生成 可 | 

息 。 您 可 以 针对 存储 在 Microsoft Office Excel 表 中 的 数据 分 析 其 相关 性 和 运行 
可 以 创建 和 修改 存储 在 Analysis Services 实例 中 的 数据 控 握 模型 ， 还 可 以 将 结 
REFE Microsoft Office Visio 中 。 


Office 数据 控 扬 外 接 程序 提供 一 些 向 导 ， 这 些 向 导 最 大 限度 地 降低 了 从 多 维 数据 : 


prie 2o met Esp RAD els] | Microsoft SQL Server 2005 Office 2007 HIENA 
RETELE (Office 2007 数据 挖掘 外 接 程序 


用 于 演示 和 业务 分 析 的 : 


对 于 具有 丰富 业务 分 析 和 数据 控 握 经 验 的 用 户 来 说 ， 这 些 外 接 程序 为 其 提供 了 功 | 
使 用 的 ， 月 于 处 理 Analysis Services 中 控 据 模型 的 工具 。 


Excel 2007 数据 挖掘 说 明 中 的 开始 功能 与 第 5 章 安装 与 设 定 操作 方式 一 样 ， 如 图 6-3 


所 示 ， 请 参考 第 5 章 的 安装 说 明 。 


感谢 您 安装 Microsoft SQL Server 2005 Office 2007 数据 控 据 外 接 程 序 ! 
入 门 
Microsoft SQL Server 2005 Office 2007 数据 控 猛 外接 程序 利用 了 Analysis Services 数据 挖 援引 芭 的 强大 功 


能 。 也 就 是 说 ， 可 以 使 用 se Server 2005 Analysis Services RHE EEIT fJ W He TE 98288. Office 环境 中 快 
EDESENHRATESERISMR. DAD ASE EET RRUREGEES. HESCUHSWETARIEMGEDS 
一 项 内 容 ， 以 便 应 用 程序 以 最 佳 方式 工作 。 鳃 用 此 “入 门 ”设置 工具 为 您 简化 了 这 个 过 程 。 


者 机 使用 Microsoft SQL Server 2005 Office 2007 SHE TZ EHE HF, 4520583]. SQL Server Analysis 
Services 数据 库 。 请 在 下 面 选择 一 个 选项 开始 。 


这 些 外 接 程序 是 什么 ? 


SQL Server 2005 Office 2007 BEIZANT PS jà 
许 您 揭示 数据 中 隐 藉 的 模式 和 关 竹 ， 然 后 利 月 它 
们 提高 分 析 质 量 。 


已 下 载 的 包 允 许 信安 装 下 列 外 接 程序 : 


Excel 2 i T. 

Et dU Us. MTEMA AEE EU 
关键 影 响 因素 ， 突 出 显示 与 其 全 数据 不 符 的 值 。 
Excel 数据 挖掘 客户 端 


使 用 电子 表 档 数据， 或 使 用 可 通过 Analysis 
Services 数据 库 访 问 的 外 部 执 据 ， 在 Excel 内 经 历 
完整 的 数据 控 据 模型 开发 生命 周期 。 详 细 信 息 


Visio 数据 挖 所 模板 

岂可 以 加 注 的 Visio 绘 图 形式 呈现 和 共享 控 振 模 

型 。 详 细 信 息 

了 解 详细 信息 

我 们 提供 了 祝 顷 和 教程 ， 可 帮助 您 了 岁 如 何 使 用 
些 外 渎 程序 


El 


为 了 开始 使 用 Microsoft SQL Server 2005 Office 2007 ii? HB EE, R6- 
C 下载 Microsoft SQL Server 2005 评估 版 ， 在 计算 机 上 安装 Analysis Services 


€ HEJIBET3EISER kacccesst Gub Server 2005 imalysiz Services RU 
C 过 接 到 本 人 具有 非 管理 访问 权限 的 Microsoft SQL Server 2005 Analysis Services 实例 


Sea | rv | x» ]| 


6-3 ”开始 功能 界面 


一 ”3 一 / 


563 Excel 2007 321 XU] E l| 


623 ”视频 和 教学 


文件 人 mo ”查看 www 工具 四 SB O. G- ?- x) 2 IRZgb x @ 
bhi [i] http: /ww.nicrozoft. con/sql/technologiesjdn/adiins. nspz >| O v | 搜索 | =] +! 
WAR OBI (CD FINANCE DGohbroad (News Gors IOthers ¿3 Software Ostat xm É]Goorle scholar O Foruns OPER 


Quick Links | Home | Worldwide | 


Microsoft Search Microsoft.com for 
EI 

SQL server: Home | Site Map | Worldwide | Free Newsletters 

| Product Information "| Technologies > Data Minin 

How to Buy ` N 

Editions "| Microsoft SQL Server Data Mining Add-Ins for Office 2007 

Learning Updated: February 26, 2007 

id: 

Dewnionda Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 is a set of easy to use data mining capabilities that 

Support enable predictive analysis at every desktop. Being able to harness the highly sophisticated data mining algorithms 

Partners "| of Microsoft SQL Server 2005 Analysis Services within the familar environment of Office, business users can easily 

Technologies "|| gain valuable insight into complex sets of data with just a few mouse cicks. Designed with the end users in mind, 

Solutions »| the Data Mining Add-Ins for Office 2007 empowers end users to perform advanced analysis directly in Microsoft 

Industries »| Excel and Microsoft Visio. || 

Community. 


Previous Versions : 
Future Version Overview 


The Microsoft SQL Server 2005 Data Mining Add-Ins for Microsoft Office 2007 contain three add-ins. Two for 
Microsoft Office Excel 2007 and one for Microsoft Office Visio 2007. 


Microsoft Servers — ° 
Related Sites 


SQL Server * Table Analysis Tools for Excel: Provides an easy-to-use add-in that leverage SQL Server 2005 Data Mining 
TechCenter behind the scenes to perform powerful end user analysis on spreadsheet data. 
SQL Server è " i 
Doe Gr Data Mining Client for Excel: Offers a full data mining model development litecycle directly within Excel 2007. 
SQL Server Support * Data Mining Templates for Visio: Enable powerful rendering and sharing of mining models as annotatable Visio 
Center 2007 drawings. 

Download SQL Server 2005 Data Mining Add-ins for Microsoft Office 2007 

Top of page 
Tutorials 


The Microsoft SQL Server 2005 Data Mining Add-Ins for Office 2007 video tutorials has been created to help you to 
quickly get started using the Data Mining Add-Ins for Office 2007. The series consist of a small selection of short 
videos focusing on illustrating how to use the various features and allowing you to benefit from the powerful add- 
ins in a matter of minutes. 


Watch this video to learn how to use the Server Configuration Utility to prepare the Analysis Services Server for 到 
La [xe | G € | ?rm 16:03:08. 4 


6-4 ”视频 和 教学 网 页 


63 ”数据 挖掘 连接 配置 


设 定 连 接 数 据 挖 抉 服务器， 必须 设 定 连 接 到 Analysis Services 数据 库 。 
63. 设 定 目前 的 连接 


其 操作 步骤 如 下 : 
Stepl: 单 击 此 功能 会 开启 Analysis Services 连接 设 定 ， 在 第 5 章 安装 与 设 定 中 已 经 设 
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定好 一 个 连接 ， 因 为 已 经 预先 建立 好 了 一 个 SQL Demo 的 分 析 数 据 库 ， 系 统 会 自动 将 它 设 
定 为 默认 值 ， 如 图 6-5 所 示 。 者 要 增加 Analysis Services 连接 ， 单 击 【 新 建 】 按 钮 。 
= D| xl 


HEW... 
B (D) 
iei (D 


测试 连接 (了 


6-5 ”默认 的 连接 


Step2: 在 【服务 器 名 称 】 文 本 框 中 输入 要 连接 的 服务 器 名 称 : 例如 ，localhost; 

选择 目录 名 称 : 例如 ，DMAddinsDB-Test; 

输入 容易 记 的 名 称 : 这 里 系统 会 将 目录 名 称 填 入 , 也 可 以 自行 更 改 , 例如 , DMAddinsDB- 
Test (localhost) 整个 操作 如 图 6-6 所 示 。 

Step3: 在 Step2 中 ， 可 以 单 击 【 测 试 连接 】 按 钮 。 出 现 【测试 连接 成 功 】 提 示 框 〈 如 
图 6-7 所 示 ) ， 表 示 已 经 新 增 连接 完成 ， 再 单 击 两 次 【确定 】 按 钮 即 可 。 


香 连接 到 Analysis Services -joj xj 
1， 服 务 器 名 称 (了 : localhost 
2 RAE: 


G 使 用 Windows 身份 验证 W 
C 使 用 特定 用 户 各 和 密码 (U) : 


BP (D: 
EB: 


r SB r 允许 保存 密码 (5) 
3. BRE: DaddinsDB-Test 了 xj 
4. FERE: [DtAddinsDB-Test (localhost)] à) 成 功 。 
取消 
LETT] j 


图 6-6 设 定 连接 图 6-7 测试 连接 成 功 
Step4: 在 目前 的 连接 中 增加 了 刚 设 定 的 名 称 ， 若 要 再 变更 连接 ， 可 在 要 连接 的 项 目 上 
双击 ， 就 会 改变 成 目前 的 连接 ， 如 图 6-8 所 示 。 然 后 单 击 【关闭 】 按 钮 。 
Step5: 在 Excel 2007 数据 挖掘 的 连接 功能 上 ， 可 以 看 到 已 经 改变 连接 了 ， 如 图 6-9 
所 示 。 


x EECsswEEEEAT MM 


° 
K ¿ 
DMAddinsDB-Test 8 
(localhost) Ex 


图 6-8 新 增 连接 图 6-9 改变 后 连接 
632 跟踪 


此 功能 为 跟踪 传送 到 数据 挖掘 服务 器 的 查询 ， 选 择 当 前 连接 就 会 显示 连接 查询 ， 如 
图 6-10 所 示 。 


aur Ax 
Moser 
jo mem SQL Server2005 
到 


'ONNECTION 
DMAddinsDB-Test (localhost) 
PROVIDER-MSOLAP;Data Source-localhost;Catalog-DMAddinsDB-Test; ; 
Lr 时 间 : 2007-8-22 16:11:24 
Ç: Open 


图 6-10 跟踪 器 


6.4 数据 准备 


在 开始 数据 挖掘 之 前 ， 可 先 对 数据 做 单一 查看 、 清 除 整 理 数据 或 进行 抽样 。 
6.4.1 浏览 数据 


浏览 数据 功能 可 以 建立 基本 数据 的 统计 信息 ， 依 据 所 选择 的 数据 列 产生 直方 图 。 操 作 
步骤 如 下 : 


=a 
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Stepl: 开始 使 用 浏览 数据 向 导 ， 单 击 【下 一 步 】 按 钮 ， 如 图 6-11 所 示 
A 浏览 数据 


zigixi 
> 浏览 数据 向 导入 门 


它 是 什么 ? = 
浏览 数据 向 导 人 允许 您 创建 有 关 Excel 表 或 Excel 区 域 数 
据 的 基本 统计 信息 。 


些 什么 ? 
E TEM Excel 表 或 区 域 中 选择 一 列 并 生成 一 个 
方 图 。 


T- 不 再 显示 此 欢迎 页 (D)。 


CES) my | 
图 6-11 浏览 数据 向 导 
Step2: 选择 来 源 数据 ， 选 择 数据 表 或 设 定数 据 区 域 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 6-12 
所 示 。 


-ioj 
选择 源 数 据 


C 数据 区 域 (D) : 


图 6-12 选择 源 数据 
Step3: 选择 要 分 析 的 数据 列 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 6-13 所 示 。 
Step4: 查看 图 。 有 两 种 方式 查看 。 
© 以 离散 方式 查看 : 无 论 数据 为 离散 型 或 者 是 连续 型 ， 都 可 以 用 此 图 型 查看 , 但 是 若 
E 


—ə 


第 6 章 | EXcel2007 数 据 挖 气 入 门 | B B | 


分 析 的 数据 为 离散 型 数据 (定性 数据 》 时， 只 能 以 此 图 型 查看 ， 如 图 6-14 所 示 。 


: ' 
asomo mm J, 


图 6-13 选择 列 


二 [|x| 


浏览 数据 
RIKETEKENHK: 视 作 数值 可 查看 数值 的 分 


"Table Analysis Tools Sample'!'Table2' [Age] 


E 
b] 


«r-»e|[ se | s [| 


图 6-14 ”以 离散 方式 查看 
@ 以 数值 方式 查看 : 分 析 的 数据 为 连续 型 数据 时 ， 可 以 用 此 图 型 查看 。 
O 存储 桶 ， 数据 分 组 数 ， 依 据 存 储 桶 数字 而 定 ， 如 图 6-15 所 示 。 
Q 加 入 新 数据 列 : 依存 储 桶 的 分 组 数据 ， 加 到 分 析 数 据 列 的 后 面 ， 单 击 【 完 成 】 按 
钮 。 在 来 源 数据 上 ， 可 以 发 现 已 经 增加 一 列 离散 化 后 的 数据 ， 如 图 6-16 所 示 。 
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[<a cx 
mem š 
选择 用 于 对 数据 分 组 的 存储 桶 数 。 视 作 离散 可 查看 单 e 
个 值 的 计数 。 
存储 桶 (四 g a "Table Analysis Tools Ssmple'!' Table?’ [Age] 
260. 
208 
156: 
104. 
52 
o- — 
25m ' mn 7o 4r 7 49.5] 7 57-65 7 $8.73 ^ 7-8) COGI. 
imi [ns] mesmo) |æ) 
< I 完成 @) 取消 
[eco pez =], 
图 6-15 存储 桶 图 6-16 加 入 新 数据 列 


642 ”清除 数据 


清除 数据 有 两 种 ， 清 除 离 群 值 数据 与 重新 定义 数据 卷 标 。 
1， 离 群 值 
在 分 析 数 据 的 过 程 中 ， 常 会 有 一 些 数据 超出 正常 范围 ， 或 者 大 大 超出 预期 的 范围 ， 或 
是 不 正确 的 输入 值 等 ， 这 样 的 值 都 称 为 离 群 值 。 其 操作 Step1 一 Step3 同 浏览 数据 功能 的 操 
VPR, PEOR. 
O “指定 临界 值 : 指定 允许 的 范围 ， 在 范围 值 外 其 值 会 被 移 除 。 此 例 说明 : 年 龄 最 大 
为 89 岁 ， 最 小 为 25 岁 ， 将 年 龄 最 大 值 设 定 到 65 岁 时 ， 则 大 于 65 岁 以 上 的 年 龄 
区 块 会 有 阴影 ， 阴 影 部 分 的 观测 将 会 被 移 除 ， 如 图 6-17 所 示 。 


TD] -|ni x| 
指定 局 值 
指定 允许 的 值 的 范围 。 更 改 分 辩 率 或 视 作 离散 可 更 改 
数据 从 视图 。 a 
RMW [od EX: fs Eu 
s 
Tools Sa% 


X 


Tija PRE: jo — a 
asom] me |, 


图 6-17 指定 阅 值 


ü 移 除 离 群 值 的 方式 ， 指定 一 个 移 除 离 群 值 的 方式 ， 如 图 6-18 所 示 。 
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图 6-18 ” 离 群 值 处 理 
O 放置 数据 修改 的 位 置 ， 指 定数 据 放置 目的 地 ， 如 图 6-19 所 示 。 


图 6-19 ”指定 数据 放置 目的 地 


2. 重 设 标记 

在 分 析 数 据 的 过 程 中 ， 常 会 有 一 些 数据 的 输入 方式 造成 很 难 解释 与 解读 ， 例 如 性 别 以 
数字 0、1 代表 ， 此 时 就 需要 将 数据 列 重 新 给 定 一 个 标签 说 明 。 其 操作 Stepl —Step3 同 浏览 
数据 功能 的 操作 步骤 ， 不 再 歼 述 。 

OQ ”给 定 新 的 标签 : 输入 新 的 标签 ， 如 图 6-20 所 示 。 
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-imxi 
重新 标记 数据 — 
p 


在 右 侧 儿 入 值 或 选择 值 ， 为 希望 更 改 的 数据 标签 指定 新 标签 。 可 以 为 多 个 不 同 原始 标签 
指定 相同 的 新 标签 ， 对 值 进行 分 组 。 单 击 列 标题 将 按 该 列 对 标 答 排序 . 
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图 6-20 输入 新 的 标签 
口 放置 数据 修改 的 位 置 ， 指 定数 据 放 置 目的 地 ， 如 图 6-21 所 示 。 
Haix 
选择 目标 «TI 
指定 修改 后 的 数据 的 存放 位 置 。 
€ EARNERS T fs (a) | 
C 将 工作 表 数 据 及 其 更 改 复 镍 恒 新 工作 表 (C) 
C 就 地 更 改 数据 (D) 


< ID 完成 (E) 取消 p 
£ 


图 6-21 指定 数据 放置 目的 地 


6.4.3 ”分 割 数据 


数据 挖掘 前 的 数据 抽样 ， 有 一 个 很 重要 的 工作 ， 就 是 要 将 数据 分 割 为 定型 集 〈 即 训练 
数据 集 ，training data set) 与 测试 数据 集 (testing data set) 。 通 常 将 来 源 数据 的 70% 作 为 训 
练 数据 集 , 来 源 数据 的 30% 作 为 测试 数据 集 ， 比例 并 非 固 定 , 是 可 以 调整 的 。 其 操作 Step1、 
Step2 同 浏览 数据 功能 的 操作 步 又 ， 不 再 袭 述 。 
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数据 抽样 类 型 ， 选 定数 据 抽样 方式 ， 如 图 6-22 所 示 。 
-imxi 


选择 抽样 类 型 pg 
2 


| 抽样 方法 
c BRERA (S) | 
C 随机 抽样 (四 

过 和 抽样 以 调节 数据 分 布 ) 


拆 分 数据 根据 您 提供 的 比率 将 所 选 数据 随机 拆 分 为 两 个 集 ， 即 定型 集 和 测试 集 。 定 型 
集 可 以 使 用 数据 建 模 工具 创建 控 气 模型, St 测试 集 可 以 使 用 稚 确 性 和 验证 
工具 测试 模型 。 每 个 集 都 在 新 工作 表 中 创建 


《上 - 步 加 | [下 - 步 四 ?| _ ma p 


图 6-22 选择 抽样 类 型 
1. 将 数据 分 割 成 定型 集 和 测试 集 
依 所 提供 的 比例 ， 将 数据 分 割 成 定型 集 与 测试 集 。 定 型 数据 集 〈 训 练 数据 集 ) 用 来 构 
建 数据 挖掘 模型 ， 模型 构建 完成 后 ， 再 将 测试 数据 集 通 过 准确 性 和 验证 工具 进行 测试 验证 。 
(1) 设 定 训练 数据 集 的 百分比 ， 如 图 6-23 所 示 。 


-oix 
NEG OH EBATDORIN UC 2 
9 一 
定型 数据 百分比 (E) : 70.0 
说 明 = 
70% 的 (随机 选取 ) 输 入 数据 将 复制 重用 于 定型 集 的 新 电子 表格 中 。 犁 | 余 30. 0% 将 复制 
到 用 于 测试 集 的 新 电子 表格 中 
€ I3 T— > 取消 
| wj 


BH623 ” 设 定 百分比 
(2) 输入 训练 数据 集 与 测试 数据 集 的 工作 表 名 称 ， 如 图 6-24 所 示 。 
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图 6-24 输入 工作 表 名 称 
Go 增加 了 两 个 工作 表 : 训练 数据 集 与 测试 数据 集 ， 如 图 6-25 所 示 。 


Table Analysis Tools Sample] 训练 数据 


图 6-25 ”新 增 两 个 工作 表 
2. 随机 抽样 
以 设 定 百 分 比 或 数目 方式 来 抽样 ， 而 每 个 被 选取 的 概率 是 相等 的 。 被 选取 的 数据 会 放 
置 在 新 的 工作 表 中 ， 未 选取 的 数据 也 可 选择 放置 在 另 一 个 工作 表 中 。 随 机 抽样 (Random 
Sampling) 的 方式 可 减少 数据 挖掘 的 数据 量 。 另 一 种 抽样 方式 是 固定 样本 量 ， 即 设 定 样本 
的 行 计数 。 
(1) 设 定 抽样 的 大 小 ， 如 图 6-26 所 示 。 


为 数据 分 区 向 


图 6-26 设 定 样本 大 小 
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— y ë E U| 


(2) 输入 所 选集 工作 表 名 称 与 未 选集 工作 表 名 称 ， 如 图 6-27 所 示 。 


< 为 数据 分 区 向 导 
完成 EH 
9 
所 选集 工作 表 名 称 (E) : RESER ww 
为 未 选 数据 创建 工作 衣 (C) 
未 选集 工作 来 名 称 (ID : [5.7.7 o 
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图 6-27 输入 工作 表 名 称 
(3) 增加 了 两 个 工作 表 : 选取 的 数据 集 与 未 选取 的 数据 集 ， 如 图 6-28 所 示 。 
LTable Analysis Tools Sample < 选取 的 数据 集 < 水 选 取 的 数据 集 2 


图 6-28 在 Excel 2007 的 下 方 标签 行 中 新 增 两 个 工作 表 


3. 超额 抽样 以 平衡 数据 分 布 
超额 抽样 (oversampling) 所 建立 的 数据 集中 会 包含 以 特定 的 超额 比例 选取 的 异常 事件 
观测 数据 ， 关 数据 中 正常 观测 数据 和 异常 观测 数据 的 比例 差距 较 大 时 ， 可 使 两 者 的 比例 设 
定 相当 。 不 过 由 于 样本 偏 误 的 因素 ， 这 一 抽样 方法 较 少 使 用 。 
(1) 设 定 目标 百分比 ， 如 图 6-29 所 示 。 


A 为 数据 分 区 向 导 inl xl 
过 度 抽样 导致 出 现 不 党 见 的 状态 2 
EH 
MAAD: = 
目标 状态 (D: arried i 
目标 百分比 (已 : [xo 3 
样本 大 小 ( 习 : pm — 3 


说 明 
Ei Leu 该 样本 最 多 含有 1000 行 ， 并 确保 含有 sox 的 


osom wm [| 
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(2) 输入 抽样 数据 工作 表 名 称 ， 如 图 6-30 所 示 。 


ED - [Dl x| 
完成 2 
3 
BURSCEERERM): MERSER 


图 6-30 ”输入 抽样 数据 工作 表 名 称 
(3) 增加 了 一 个 工作 表 : 抽样 数据 集 ， 如 图 6-31 所 示 。 
| Table Analysis Tools Sanple FSUE, 


6-31 # Excel 2007 的 下 方 标签 行 中 新 增 一 个 工作 表 


6.5 数据 建 模 


下 面 开始 构建 数据 挖掘 模型 。 数 据 建 模 都 是 运用 数据 挖掘 算法 来 构建 模型 ， 若 是 读者 
使 用 过 SQL Server 2005 的 Analysis Services 则 会 很 熟悉 。 微 软 应 用 了 数据 挖掘 的 九 个 算法 ， 
在 数据 模型 化 中 ， 除 了 列 出 常用 的 五 个 模型 方法 外 ，“ 高 级 ”模型 方法 则 是 自行 选择 挖掘 
算法 并 以 手动 方式 自行 设 定 参 数 。 

1. 分 类 

依据 分 析 的 个 体 属 性 分 类 ， 算 法 为 Microsoft 决策 树 。 

2. Wit 

依据 模型 相关 的 变量 去 预测 一 个 连续 型 数据 ， 算 法 为 Microsoft 决策 树 。 
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3. RŽ 

将 同 质数 据 归 为 相同 的 类 别 ， 算 法 为 Microsoft 聚 类 分 析 。 

4. 关联 

发 现 所 有 相关 程度 较 高 的 项 目 集合 。 算 法 为 Microsoft 关联 规则 。 

5. 预测 

根据 分 析 个 体 属性 的 历史 观察 值 预测 未 来 值 。 算 法 有 Microsoft 时 间 序 列 和 Microsoft 
决策 树 。 

6. 高 级 


自行 选择 挖掘 算法 并 以 手动 方式 自行 设 定 参数 。 
微软 所 提供 的 九 种 算法 如 下 : 

O Microsoft 决策 树 。 
口 Microsoft 贝 叶 斯 概率 分 类 。 
Q Microsoft 时 序 聚 类 。 
口 Microsoft 时 间 序 列 。 
口 Microsoft 聚 类 。 

OQ Microsoft 线性 回归 。 
口 

ü 

a 

以 


Microsoft Logistic 回归 。 
Microsoft 关联 规则 。 
Microsoft 类 神经 网 络 。 
上 九 种 数据 挖掘 算法 与 应 用 ， 将 于 后 面 章节 分 别 介绍 。 


6.6 ”准确 性 和 验证 


数据 挖掘 模型 构建 完成 后 ， 可 以 通过 准确 性 和 验证 方式 ， 用 图 表 查 看 模型 的 准确 性 。 
6.6.1 准确 性 图 表 


使 用 查询 中 的 测试 数据 ， 用 来 评估 模型 的 效率 。 若 模型 的 因 变 量 是 定性 变量 ， 则 准确 
性 以 利润 图 显示 ; 若 因 变量 为 数值 型 变量 ， 则 以 散 点 图 表 显 示 。 此 功能 可 以 建立 基本 数据 
的 统计 信息 ， 依 据 所 选择 的 数据 列 产生 直方 图 ， 并 将 现 有 模型 与 假设 理想 模型 做 比较 。 分 
类 模型 和 估计 模型 分 别 如 图 6-32、 图 6-33 所 示 。 
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us——— sP 
i E z A AERE i Income ERE EE e 
模型 "分 类 Cors 1" 的 准确 性 图 表 ER 
- WO Cars 2 
ETT ET 155105 inn 
— 
mx — —7 一 ino 
"x 
MR — 
Q9 ens : rikis ii 
" x 
Ea Lm i 
Ë pos — mue — itn 
š se 一 一 分 类 Cars_1 = S 
a% gem 40000 3 
di D 
20000 sA 
ax L, i 
ox V ; 
05 105 25 35 40% 50% 的 % 7% NN X 10 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 
EL 
L—1 
6-32 分 类 模型 6-33 ”估计 模型 


6.6.2 分 类 矩阵 


从 原始 数据 中 分 离 的 测试 集 可 以 用 于 测试 模型 的 预测 效果 。 通 过 比较 ; 
际 值 与 模型 预测 结果 ， 可 以 建立 分 类 矩阵， 如 图 6-34 所 示 。 


I 试 数据 中 的 实 


Tots] 2s] ] 289288) ] SR] 403286) = 
75.31 & 5.99 * 1.45% 0.00% 0.00 
18.93 % 82.02 & 21.45 & 38.82 % 33.33 
5.76 & 8.61 % 73.91 & 17.65 & 8.33 
0.00% 0.00% 2.32% 10.59 % 1.67 
0.00% 3.37% 0.87 & 32.94 % 56.67 


75.319€ 82.02% 73.91% 10.59% 56.6796 
24.69% 17.98% 26.09% 89.41% 43.3396 


[= ARE UE] AEE EE) AEE) > | 
183 16 5 0 0 


46 219 74 
14 23 


6-34 ”分 类 矩阵 
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6.6.3 利润 图 


针对 分 类 模型 建立 利润 图 ， 如 图 6-35 所 示 。 图 形 中 的 纵 轴 代 表 收 益 ， 横 轴 代 表 总 体 中 
数据 的 百分比 ， 当 收益 增加 到 极 值 点 时 ， 就 随 着 总 体 百分比 增加 而 减少 。 


c D E 
模型 “分 类 cars" 的 利润 图 
' 目标 总 体 -Cos 0 


120,000.00 7 
Y 100,000.00 + 
Y80,00000 + 
Y 60,00000 + 
Y40,00000 | 


Y20,00000 1—/ 


o% 10% 20% 30% 40% 50% 60% 70% so% 905 1009 


uou 

LET [ETT -ET Is 
ox 0.00 X (¥5,000.00) 100.00 X 
1* — 412X*  YL00.00 98.20 x 
2% 8.23%  YT,00.0 98.27% 
3% 12.35 % ¥ 13,000.00 98.27 X 
4X 16.46% ¥19000.00 98.27% 
5% 20.58%  Y25,00.00 98.27 x 
6x 24.69 x ¥31,000.00 98.27 & 
7T% 28.81 € ¥ 37,000.00 98.27 X 
8X 32.92 X  Y4500.00 98.20 X 


图 6-35 利润 图 
67 模型 用 法 


浏览 功能 和 查询 功能 用 于 浏览 或 查询 现 有 的 数据 挖掘 模型 。 浏 览 功能 非常 好 用 ， 可 以 
将 构建 好 的 利润 图 复制 到 Excel 上 ， 而 且 非 常 美观 ， 可 以 从 利润 图 中 找 一 个 重要 案例 ， 将 
该 案例 的 详细 数据 提取 到 Excel E. 不 论 利润 图 或 详细 数据 表 ， 都 能 够 复制 到 Excel E, 3X 
对 分 析 人 员 作 报告 或 其 他 分 析 都 非常 方便 好 用 。 


6.7.1 浏览 功能 


浏览 功能 的 用 法 如 下 : 
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Step1: 选择 现 有 模型 ， 如 图 6-36 所 示 。 


二 
选择 模型 


模型 - 属性 : 
Table2 结构 


$ 
3k 
8 
E] 


Microsoft Decision Trees 


根据 Table2 表 建 立 的 
Microsoft_Decision_Trees 模 


型 


>2@ Em SS ME XUOuiS 
° 
° 
a 


— Rowindex 
income 


图 6-36 选择 模型 
Step2: 浏览 模型 ， 如 图 6-37 所 示 。 
Em | Em -laix 
EI Loud 
iud ms c — alal alal 23: ad C RRRERID 
Bete pA WA | 


新 建 Education 


在 网 络 中 选中 某 个 节点 以 扣 出 显 二 其 仿 问 关系 。 


zaas exe Ig rise mince 
El tradas B rono 
EEESC EHE kecel Œ mo 
Zi Zi 
(a) (b) 


6-37 ”浏览 模型 
Step3: 复制 到 Excel， 如 图 6-38 所 示 。 


— r4 


第 6 章 | EXcel2007 数 据 控 据 入门 | B E | 


E 
分 类 Cars 


依赖 关系 网 络 


6-38 ”复制 到 Excel 


Step4: 钻 取 。 
(1) 在 Education- “High School” 图 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 【 钻 取 】 命 令 ， 
如 图 6-39 所 示 。 
EE a 
do «mc a | 
mew: [53] Er armi — j— uns 
I ———-— 
| a apama 
J pinami 


] 
i | 


prasa 
| I 9 Os meme 
rod FEF w 
| E sesar s Ta sas? = 
| Tee 
| memo LI 
| FUCUS 
| yere 
> wam 


图 6-39 iki [580] @ 
(2) 依据 该 案例 条 件 的 所 有 数据 存在 一 个 新 的 工作 表 中 ， 如 图 6-40 所 示 。 
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1i | Exc 引 2007 数据 挖掘 完全 手 


To) DMAddins_SampleData - Microsoft Excel -ax 
Nez 1 — 


012 Wider Eupe Tagh School 
3 High School 21-2 Nile Pacific High Scl 

D Partial Mish 20 mile Eze High School 

D High School 1510 mile Europe High Sect 

Portion Mish à 20-1 Milos auos Hah School 

D Higi School 125 Milos Eroe High Schocl, 

d Partia Iheh | 2O01 Miles Erose Hazh School 

2 Partial Colle Set: ° 25210 miss Tesi z heh Sehocl 

4 High School 3530 Miles Perope heh Schosl 

iip: Schol  Proferricmal 210 miles — agh Schocl 

G Partin) Colle Profeszienal 4510 iss Europe Migh School 

2 High School Hamal 001 Miles Europe High School 

Ü High School Namal awe High School 

D Partial High Jamal Brope High Echocl 

Eroe Hich School 

Erope Hazh School 

led Wampal Pastis Beb Schoel 

Single D portial Hagh Real 2 Europe Hagh School 
Snele fern) sgh “Hamal Earepe Hagh School 
Single 0 Hagh Schmol Namal Ts Europe Hagh School 
Single Pacitic High School 
at Eavge High School, 
Single aee High School 
aries Eurgpe High 3choel 
Marrisd Pacitio Hoch School 
Sanele p z 2 Test iagh School 
Single 10000 heh School 
Sangle 100000 : agh School 
Married 10000 High School 
Single 10000 1 High School Namal 5 High School 
Waras 20000 High School Silla Pasal Buah School 
Single 20000, D Partial High Manal r2 High School 
Sineto 16000 d Partia Heh annal. Hoch School 
Sungle 10006. Partial Colle Kamal High Schol, 
Sanele dono 2 portial Colle-Ski ed Manual Mrs School 
Warte 10006 D Partia) Colle Menat 25 Yen heh School 
10000 EI Beb School 

30000, Sulled Banus 1 Pacific pa iagh Sect 

eooo Susa wasa Tes mati LIj High School 


6-40 ”新 的 工作 表 
6.72 ”查询 功能 


对 现 有 的 模型 建立 数据 挖掘 进行 预测 查询 ， 可 以 通过 数据 挖掘 高 级 查询 编辑 器 撰写 
DMX 查询 语言 ， 方 便 查 询 预测 ， 如 图 6-41 所 示 。 


标准 查询 */ 


SELECT qus gj 
PredictProbability([J)3& Cars]. [Cars], 2) AS BENED 


Marital Status. 


Eum ml 选择 模型 (0) 


FROM 


分 类 Cars 
PREDICTION JOIN 选择 输入 (I) |+ 


QInputRowset AS t 


映射 列 (了 
FEMRA) 


vee Z] [messe 2 


m | 
图 6-41 数据 挖掘 高 级 查询 编辑 器 


~ REFERAT] MM 


68 模型 管理 


要 管理 模型 ， 当 然 是 先 建立 至 少 一 个 模型 后 ， 才 能 再 进行 管理 。 此 功能 可 以 对 已 经 建 
立 的 模型 进行 更 名 、 删 除 、 清 除 、 重 新 处 理 、 导 出 、 导 入 等 动作 ， 如 图 6-42 所 示 。 


P 管理 挖 所 结构 和 模型 _ [D| xj 


*X 删除 此 控 气 结构 

2 清除 此 控 据 结构 

< 使 用 原始 数据 处 理 此 控 据 结构 
a 使 用 新 数据 处 理 此 挖 据 结构 
B 导出 此 控 气 结构 

Ë SA 


结构 : Table2 结构 a 
说 明 : DMAddins_SampleData xlsx 工 
作 敌 Table Analysis Tools 
i^ 工作 表 中 Table2 表 的 _ | 


6-42 ”管理 挖掘 结构 和 模型 


681 重新 命名 挖掘 模型 


Hed; E 重 命名 此 挖 气 结 构 。， 可 重新 命名 挖掘 模型 。 
输入 新 的 挖 据 结 构 名 称 ， 如 图 6-43 所 示 。 


重 命名 挖掘 结构 xj 
原始 名 称 (0) : [rab1ez 888 INI 
SEND: I 


D 请 输入 新 名 称 。 
大 


6-43 ”输入 新 名 称 


6.8.[2 ”删除 挖掘 结构 


Jed; > 删除 此 挖掘 结构 ， 可 删除 挖掘 结构 。 
删除 之 前 会 询问 确认 是 否 删除 ， 如 图 6-44 所 示 。 


一 737 


|H 图 | ExcsL2007 数据 挖 所 完全 手册 


WU JH ESTE EAE x| 
3 是 否 确实 要 删除 “Table2 结构 ”挖掘 结构 和 它 包 含 的 所 有 模型 ? 
=v | 


图 6-44 确认 删除 


6.8.3 ”清除 挖 据 结构 


Jub @ 清除 此 挖掘 结 构 ， 可 清除 挖掘 结构 。 
清除 之 前 会 询问 确认 是 否 清除 ， 如 图 6-45 所 示 。 
| 


SI) ATARE “rable2 结构 "” 控 据 结构 ? 


XD S 


6-45 ”确认 清除 


6.84 ”用 原始 数据 处 理 挖掘 结 构 


单 击 型 使 用 原始 数据 处 理 此 挖掘 结构 ， 可 用 原始 数据 处 理 挖掘 结构 。 
重新 处 理 挖掘 结构 之 前 ， 会 再 确认 是 否 重 新 处 理 此 模型 ， 如 图 6-46 所 示 。 


>J 
SZ) “Table 结构 ” Pig CUI. AARET NNAK RC EA AS RO 
LX ] so 


图 6-46 确认 处 理 


6.8.5 ”用 新 数据 处 理 挖掘 结构 


单 击 Q 使 用 新 数据 处 理 此 挖 握 结 构 ， 可 用 新 数据 处 理 挖掘 结构 。 

重新 处 理 挖掘 结构 前 ， 会 再 确认 是 和 否 重 新 处 理 此 模型 ， 单 击 【 是 】 按 钮 后 ， 选 取 重 新 
处 理 挖掘 结构 的 数据 来 源 ， 单 击 【下 一 步 】 按 钮 ， 如 图 6-47 所 示 。 

重新 设 定 挖掘 结构 的 输入 与 输出 之 间 的 数据 列 对 应 ， 单 击 【 完 成 】 按 钮 ， 如 图 6-48 所 
示 ， 数 据 挖 掘 结构 就 会 重新 处 理 。 
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— i Oe EI! 


A 处 理 控 握 结构 _ [D| x 
选择 源 数据 
6D: EAEN E 
个 数据 区 域 (D) : [ PSI 
r: 


C tnalysis Services WEW (A): 
数据 源 名 称 (8) : [s D 


查询 (9) : 


ESE »m | 


图 6-47 选择 源 数 据 
-iglxi 


指定 列 映射 


指定 结构 列 和 输入 列 之 间 的 映射 


[cars Cars 

Children Children 
|Coanute Distance Comaute Distance 
Education Education 


Gender Gender 


| 
Is s I ale e alle E 
-—  — in 


[Hone Owner Hone Ovner 
ID ID ` 


<+ xm | 


6-48 ”指定 列 映射 


ak 


6.8.6 ”导出 挖掘 结构 


Him 导出 此 挖掘 结构 ， 可 导出 挖掘 结构 。 
输入 导出 的 文件 名 及 位 置 ， 如 图 6-49 所 示 。 
xl 


将 “Table2 fi" ERANS USE EE. 


XED: [ 


A 请 输入 文件 路 径 。 


6-49 输入 文件 名 及 位 置 
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6.8.7 导入 挖掘 结构 


单 击 m 导入 ， 可 导入 挖掘 结构 。 
输入 导入 的 文件 名 及 位 置 ， 如 图 6-50 所 示 。 


到 
从 特定 位 置 导入 文件 。 
从 文件 (四 : [ kal 
A 请 输入 文件 路 径 。 
| 


图 6-50 输入 文件 名 及 位 置 
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第 7 章 U R 树 


71 基本 概念 


决策 树 是 数据 挖掘 中 的 一 项 主要 方法 ， 其 方法 原理 是 利用 多 个 预测 变量 对 定性 变量 进 
行 预测 。 决 策 树 和 判别 分 析 一 样 ， 都 可 以 完成 分 类 任务 。 但 是 决策 树 的 弹性 ， 使 得 数据 本 
身 更 具 吸 引力 。 


7.2 决策 树 模块 的 建立 


决策 树 模块 的 建立 包括 三 种 类 型 : 针对 类 别 型 的 预测 变量 ， 计 算 以 单 变量 分 裂 为 基础 
的 二 分 叉 决策 树 ， 针 对 有 序 型 的 预测 变量 ， 计 算 以 单 变量 分 裂 为 基础 二 分 叉 决策 树 ， 针 对 
类 别 和 有 序 混合 型 的 预测 变量 ， 计 算 以 单 变量 分 裂 为 基础 的 二 分 叉 决 策 树 。 当 然 也 可 以 建 
立 线性 组 合 的 分 裂 函 数 Clinear combination split) ， 对 个 体 进行 划分 。 


7.3 决策 树 与 判别 函数 比较 


决策 树 与 判别 函数 的 比较 ， 如 表 7-1 所 示 。 
表 7-1 决策 树 与 判别 函数 比较 


决 策 树 
使 用 系数 和 判别 函数 ， 突 出 层次 性 ， 分 类 更 
加 准确 
决策 树 的 预测 变量 和 分 类 变量 之 间 ， 可 以 分 
别 进行 独立 的 回归 分 析 
递归 层次 结构 作为 分 类 原则 


判别 函数 


使 用 系数 和 判别 函数 ， 但 没有 层次 性 ， 因 而 分 类 效果 较 差 


预测 变量 与 因 变 量 间 的 关系 可 视 为 一 个 多 元 回归 方程 


利用 个 体 的 属性 变量 的 相似 性 作为 判别 依据 
所 有 预测 变量 同时 出 现在 判别 函数 中 ,无 法 判断 每 个 预测 
变量 的 重要 性 


可 以 逐个 考查 决策 树 的 预测 变量 的 影响 


可 处 理 类 别 变量 、 连 续 变量 或 混合 型 的 预测 


变量 


- 般 要 求 预测 变量 至 少 是 有 序 的 定性 数据 


|H 图 | ExcsL2007 数据 挖 所 完全 手册 


7.4 计算 方法 
7.4.1 确定 预测 精度 的 标准 


决策 树 分 析 的 目的 是 把 个 体 归 入 其 最 有 可 能 正确 的 类 别 ， 因 而 预测 精度 的 定义 就 显得 
相当 重要 。 一 般 来 说 ， 成 本 指 个 体 是 否 有 发 生 错误 分 类 的 现象 ， 且 占 所 有 个 体 数 的 比例 。 
进一步 讲 ， 成 本 还 可 以 定义 为 预测 时 可 以 承受 的 损失 。 因 此 ， 成 本 越 小 ， 混 合 分 类 的 情形 
就 越 小 ， 预 测 精 度 越 高 。 

在 决策 树 中 ， 还 要 考虑 个 体 所 属 类 别 的 先 验 概 率 。 如 果 各 个 类 别 的 比例 相似 ， 或 者 各 
个 分 类 中 的 个 体 数 接近 相等 ， 那 么 可 选择 相同 先 验 概率 ; 如 果 各 个 类 别 的 比例 相差 较 大 ， 
可 以 把 样本 中 的 类 别 比例 作为 先 验 概率 ; 如 果 针 对 某 个 类 别 有 着 特定 的 意义 或 特别 的 考虑 ， 
则 可 以 分 别 设 定 不 同 的 先 验 概 率 。 


742 ”选择 分 裂 (分 层 ) 技术 


各 种 分 裂 〈 分 层 ) 技术 如 表 7-2 所 示 。 
表 7-2 分 裂 (分 层 ) 技术 


AH BED 技术 说 了 明 

第 一 个 步骤 为 针对 现 有 决策 树 选择 预测 变量 和 该 变量 的 分 

Ep 裂 临界 值 。 计 算 个 体 与 预测 变量 问 的 相关 性 。 如 果 该 预测 变 

nanas 量 是 类 别 变量 ， 则 计算 卡 方 检验 的 p-value: 如 果 预 测 变量 为 
数值 变量 ， 则 以 ANOVA 计算 p-value 

3p zt 3 上 二 p 3 Ja s poii agam il f 4 组 合 

ERES 预测 变量 假设 为 数值 型 。 这 种 以 连续 预测 变量 计算 线性 组 


的 结果 与 前 一 种 纯粹 以 类 别 尺度 预测 变量 的 结果 类 似 
在 分 类 树 模块 中 , 提供 三 种 拟 合 优 度 检查 的 方法 : Gini 指标 、 
Chi-Square 法 和 G-Square 法 


743 ”定义 停止 分 裂 (分 层 ) 的 时 间 点 


如 果 因 变量 的 可 观察 分 类 或 者 分 类 树 分 析 中 的 预测 变量 的 层次 水 平 测量 错误 或 存在 品 
音 ， 就 无 法 得 到 最 终 的 分 类 节点 。 决 策 树 一 般 提供 两 个 功能 选项 可 以 控制 停止 分 裂 : 
CD 最 终 节点 中 应 该 包含 的 最 小 的 个 体 数 。 在 分 类 树 执行 的 过 程 中 ,程序 会 计算 落 入 节点 
数 的 个 数 直至 满足 这 一 条 件 ， 才 会 停止 。(2) 指定 个 体 所 属 类 别 的 比例 。 分 类 过 程 一 直 持 
续 到 纯 的 最 终 节 点 出 现 或 者 没有 任何 分 类 超过 该 比例 。 如 果 先 验 概率 相同 ， 且 各 分 类 的 个 
数 相同 ， 那 么 当 最 终 节点 为 空 时 ， 分 裂 过 程 自动 停止 ， 如 果 先 验 概率 不 等 ， 程 序 依然 会 对 
指定 的 分 类 大 小 与 片段 数值 相 比较 ， 直 至 满足 预 设 条 件 时 才 停止 。 


CART 方式 的 完全 搜寻 ( 单 变量 ) 


— ga 


第 7 章 决策 树 | 国 目 | 


7.4.4 选择 适当 大 小 的 决策 树 


一 般 而 言 ， 决 策 树 的 大 小 是 任意 的 ， 但 应 在 保证 预测 精度 前 提 下 ， 省 略 不 必要 的 分 支 。 
在 微软 的 分 类 树 算法 中 ， 有 多 种 不 同 的 选取 策略 可 选择 使 用 ， 如 表 7-3 Bras, 


表 7-3 各 种 选取 策略 


策 m 说 明 
面向 实际 的 交叉 验证 采用 FACT-style direct stopping 的 停止 规则 , 诊断 现 有 信息 用 以 定义 
( fact style direct stopping) 树 状 结构 大 小 的 合理 性 ; 采用 交叉 确认 的 方法 检查 合理 性 
验证 集 交 义 验 证 | 仅 在 预 留 的 验证 样本 中 进行 交叉 验证 
( test sample cross validation ) 
K 重 交 义 验证 样本 分 为 大 小 相同 的 V 个 子 样本 , 每 次 任意 抽取 一 个 子 样本 作为 验 
(k-fold cross validation) 证 数据 集 ， 余 下 的 〈V=-1) 个 子 样本 作为 训练 集 
整体 交叉 验证 将 全 部 分 析 依 据 制 定 的 次 数 复制 (重合 )， 并 划分 部 分 片段 为 样本 。 
(global cross validation ) 将 此 片段 样本 视 为 查看 样本 ， 与 重复 的 学 习 样本 进行 交叉 确认 
最 小 成 本 复杂 度 交 义 验证 


在 分 类 树 模块 中 ， 当 停止 规则 为 错误 分 类 率 时 ， 最 小 成 本 复杂 度 交 
又 验证 较 优 


( minimal cost complexity cross 


validation pruning ) 


7.5 Excel2007 决策 树 算法 


微软 的 决策 树 算 法 同时 支持 离散 和 连续 变量 的 预测 。 
Stepl: 单 击 【高 级 】 按 钮 ， 选 择 【 创 建 挖掘 模型 】 命 令 ， 如 图 7-1 所 示 。 


DMAddins SampleData - Microsoft Excel EIA rd 
(C ma wx mum cc wm sw sm sasa s 


DMAddinsDB-Test IB 


s Ge xm 分 f we ox = 分 类 查 LJ 
Ru ME RoE x v 5 BO MO m. FEF KF 询 OU (ochot — E 
| Lied fume FEREARE TEX e= 连接 帮助 
a^ B 
= = E 0-1 Hls Y 


° 
[m FT 1 
Male 80000 2 
Yale 70000 1 
ingle Tale 30000 [] 
9 | 1350 Married Fenale 10000 0 
Xale 160000 4 
Male 40000 o 
Hale 20000 2 
Yale. 20000 1 
Fenale 30000 z 
fae 2300 4 
hi Tahlc Analysis Tools S F Fill From Example, 


as o 


7-1 创建 挖掘 模型 


|H B | Excel 2067 数据 挖掘 完全 手册 


Step2: 单 击 【 下 一 步 】 按 钮 ， 如 图 7-2 所 示 。 
HILDIIEINFEEMNNNENNEEESSSS oox 
- 创建 模型 向 导入 门 


» 


它 是 什么 ? 

por Excel XE, Excel 区 域 或 
Analysis Services 查询 的 现 有 数据 建立 新 的 控 据 模型 。 您 
可 以 指定 所 使 用 的 算法 以 及 希望 预测 或 用 作答 入 的 列 。 
c 指定 算法 使 用 的 参 
数 ， 以 及 指定 输入 数据 中 要 使 用 的 列 。 


pe^ 

| SQL Server Analysis Services 数据 库 才能 使 
和 和 RIMEN E 
的 。 Lir ber Ree 须 将 服务 | gre ICH 


É: 
WIEHE, EAFA CURE maa Y 


三 不 再 显示 此 欢迎 页 (D) 。 


AA | OE E " 


图 7-2 创建 模型 向 导入 门 
Step3: 选择 数据 表 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 7-3 所 示 。 


/ 心 创建 挖掘 模型 向 导 -loj xj 

KD: [ Table Analysis Tools Sample' !’ Table?’ zi 

C 数据 区 域 (D) : | S RI — mel faa 

E XGINGIEEBBUATUOD 

C AnalysisServices 数据 源 (&): 
数据 源 名 称 (S) : pa 
查询 (9) : 

z 


pem wa |, 


图 7-3 选择 数据 表 
Step4: 选择 挖掘 算法 ， 如 在 下 拉 列 表 框 中 选择 Microsoft 决策 树 选项 ， 单 击 【 下 一 步 】 
按钮 ， 如 图 7-4 所 示 。 


Step5: 变量 选择 ， 设 Income 为 因 变量 ， 并 设 为 【 仅 预 测 】， 单 击 【下 一 步 】 按 钮 ， 
如 图 7-5 所 示 。 


— a 


*:7& Ram ml! 


K 创建 控 握 模型 向 导 -loj xj 
选择 挖 气 算 法 


选择 挖 据 算 法 ， 同 时 也 可 以 设置 算法 参数 


His ITO O--———ÁÀ — 
说 明 


crosoft 计策 树 算法 是 一 种 适合 预测 性 建 模 的 分 类 算法 。 该 算法 支持 离散 属性 和 连续 属性 的 预 


7-4 选择 挖掘 算法 


A 创建 挖掘 模 型 向 导 
选择 列 


Marital Status 


Gender 


Children 
Education 
Occupation 
Hone Ovner 
Cars 


Connute Distance 


Region 


< k— eO xm [| 
图 7-5 选择 列 
Step6: 单 击 【 完 成 】 按 钮 完成 设置 ， 如 图 7-6 所 示 。 


Step7: 决策 树 展开 。 由 图 7-7 所 示 的 决策 树 展 开 可 知 ， 当 Occupation 是 Professional， 
下 一 个 重要 变量 为 Region; 当 Occupation 是 Skilled Manual， 下 一 个 重要 变量 为 Education; 
当 Occupation 是 Management， 下 一 个 重要 变量 为 Age。 

Step8: 依赖 关系 网 络 ， 可 按照 关系 的 强 弱 判 别 Income 和 其 他 解释 变量 的 关系 大 小 。 
其 中 所 选 与 因 变 量 Income 关系 相关 的 变量 包括 Region. Age. Education. Children, Cars 
和 Occupation， 如 图 7-8 所 示 。 


rd 
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ü X 


结构 名 称 (S) : 上 Eable2 结构 
` [DMAddins_SampleD: lsx TiE T. 

结构 说 明 (D) : Analysis ` Tools Sample PES Tables 表 的 结 «2 
模型 名 称 (ID : [rable2 - $F 
模型 说 明 (0) : es WE F 
-选项 

F 浏览 重型 (RE) 

T- ER RT (U) 

T AARE 


< 上 - 步 @) || aw | 取消 |. 
图 7-6 完成 


“< 浏览 

ORE | 依 束 关 系 网 络 | 

A zl a| sd 树 : mmm in» 1 默认 扩展 ;|s 个 级 别 x 
直方 图 条 数 : [sz] WR: [全 部 事例 显示 级 别 1 一 上 一 级 别 8 


Occupation ^ 
= 'Manual' 4 


复制 到 Excel (E) 


7-7 ”决策 树 展开 


66 


Eyri eeej 


T8 与 因 变量 相关 的 变量 
Step9: 单 击 【复制 到 Excel] 按钮 , 将 依赖 关系 网 络 复制 到 Excel 文件 中 , 如 图 7-9 所 示 。 


图 7-9 复制 到 Excel 


=e 


|H B | Excel2007 5:55:59 


Stepl0: 


Stepll: 


Stepl2: 


单 击 【精确 度 图 表 】 按钮 ， 弹 出 的 图 7-10 所 示 的 【准确 性 图 表 向 导入 门 】 窗 口 。 


[Raana ou 
> 准确 性 图 表 向 导入 门 


它 是 什么 ? B 
准确 性 图 表 向 导 允 许 您 根据 Excel JE. Excel RASA 


， 该 向 导 将 生成 一 个 . fem 
地 进行 分 类 ) 相 比 的 模型 性 能 。 EE 该 向 导 将 生成 一 
个 散 点 图 ， 显 示 测 试 数据 的 模型 估计 值 和 实际 值 。 


些 什么 ? 
该 向 和 允许 外 (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 评估 的 模型 、 模 型 
AHS: 该 向 导 还 多 许 您 定义 测试 数据 列 和 模型 列 之 间 


I PRBEEURGRERCUISE (DD. | 


图 7-10 【准确 性 图 表 向 导入 门 】 窗 口 
单 击 【 下 一 步 】 按 钮 ， 弹 出 的 如 图 7-11 所 示 的 【选择 模型 】 窗 口 。 


A 准确 性 图 表 Jal xi 
选择 模型 =Z 
mm 属性 : 
Table2 结构 Ë Table2- 树 E 
分 类 Cars E 
Table2 结构 _1 id 
算 Microsoft Decision Trees 
分 类 Incene 法 
说 根据 Table2 表 建 立 的 
Table2 结构 _2 Hi Microsoft Decision Trees 模型 
* m 
出 
Income. 
EJ 
A 
Age il 


«xe [r-se»] ww | 
图 7-11 【选择 模型 】 窗 口 
选择 模型 后 单 击 【 下 一 步 】 按 钮 ， 弹 出 如 图 7-12 所 示 的 【指定 要 预测 的 列 和 


要 预测 的 值 】 窗 口 。 


Step13: 
Step14: 
Stepl5: 
Stepl6: 


——À4e r4 


选择 数据 表 ， 如 图 7-13 所 示 。 

单 击 【 完 成 】 按 钮 ， 如 图 7-14 所 示 。 
显示 精确 度 图 ， 如 图 7-15 所 示 。 
显示 精确 度 表 ， 如 图 7-16 所 示 。 
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r= 
指定 委 预 测 的 列 和 于 预测 的 信 
maen W: seen 
EWED: 
cum 
比 任务 用 于 分 析 模 型 “Tablc2 - Si" Ft F— 100000 
osi “Income” MEERE, ERRER sce y : 
BSE. QUERN "Tanle2 - H” 在 预测 “Tncone” 
ries. sone] : 
10x004 x 
20x61 


<-t x» || 
7-12 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口 


GESIE -loj x| 
选择 源 数据 a 
CU: f Table Analysis Tools Sample" !' Table?” 


个 数据 区 域 (D) ; j Tables’ 


P Training Dats’ 
C Analysisservices BHERQD yos ens oeta 


MRAD : 
ERW: 


o [Fo] sa | 


-Jglxi 
指定 模型 列 和 洽 入 列 之 间 的 关系 : 
EN 31 |=] 
aaa < 
Cars 到 
Children x 
Conaute Distance 到 
Education zl 
Gender 到 
Hone Omer 到 
Incone z 
Marital Status =Í 
Occupation z 
Purchased Bike zj 
[ENSI "race" ZARE 

《< 上-- 步 加 取消 


单 击 【 完 成 】 按 钮 


7169 


I1 


'DMAddins SampleDatz - Microsoft Excel Lex 
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模型 “Table2 - 树 "的 准确 性 图 表 


图 7-15 ”精确 度 图 
AE 开始 | 插入 ”页面 布 局 ”公式 ”数据 ”审阅 @ - = x 


Di “sa Ju + go x f 
粘贴 je BIU Jaa] == == - en 
-Ee Rem) | ~ 


30000 
80000 


图 7-16 精确 度 表 
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贝 叶 斯 分 类 Cbayes classifier) 是 一 种 简单 实用 的 分 类 方法 。 在 分 类 之 前 ， 需 知道 总 体 
中 不 同类 别 的 比例 构成 ， 通 过 训练 样本 ， 学 习 并 产生 这 些 训练 样本 的 分 类 规则 ， 再 用 这 些 
分 类 规则 对 其 他 个 体 进行 分 类 预测 。 一 般 而 言 ， 分 类 变量 可 能 出 现 两 种 以 上 不 同 的 值 ， 而 
目标 变量 多 为 二 元 的 相对 状态 ， 如 “是 / 否 ”“ 好 / 坏 ”“ 对 / 错 ” 或 者 “上 /下 ”等 。 

简单 贝 叶 斯 分 类 (naive bayes classifier) 是 根据 贝 叶 斯 定理 ， 交 换 先 验 概 率 (prior) 和 
后 验 概 率 〈posteriori)， 在 分 类 属性 相互 独立 的 假设 Cconditional independence) 下 预测 分 类 
的 情形 。 其 公式 如 下 : 


huap = argmax P(h | D) 
heV 
= argmax P(D | h)P(h) 
heV 


其 中 : 

huar 为 最 大 可 能 的 假说 (maximum a posteriori )。 

DD 为 训练 样本 。 

VV 为 假设 空间 (hypotheses space); 

P(DIh) 为 训练 样本 的 事前 概率 ， 对 于 假说 及 而 言 ， 为 一 常数 。 

P( 有 ) 为 假说 事前 概率 (尚未 观察 训练 样本 时 的 概率 )。 

P(h|D) 为 在 训练 样本 DD 集合 下 ， 假 说 出 现 的 条 件 概率 。 

简单 贝 叶 斯 分 类 根据 训练 样本 ， 对 于 个 体 的 属性 值 (a1, a, a3…, an)〔 假 设 一 共有 n 个 学 
习 概念 的 属性 A, An, An a 为 A 相对 应 的 属性 值 )， 指 派 具 有 最 高 概率 值 的 类 别 〈C 表 
示 类 别 的 集合 )， 相 关 的 算法 如 下 所 述 。 

简单 贝 叶 斯 分 类 算法 : 

D 计算 各 个 属性 的 条 件 概率 PC= j| 41= ai, 7457 a) 
Pla,as,…, an | cj )P(c)) 


贝 叶 斯 定理 : P(cj| d, aan) = 


P(ay, @,*…, a,) 


= P(a.a,,--.,a, |c;)P(e;) 


属性 独立 : Plai, ax", an| cj) =J] ralc, 
H 
Q) 预测 推论 新 测试 样本 所 应 归属 的 类 别 : 


|H 图 | ExcsL2007 数据 挖 所 完全 手册 


cag =argmax P(c, |a, a,, +, a,) =argmax P(c; DEZ lej) 
cjeC i 


cieC 


综 上 所 述 ， 只 要 简单 贝 叶 斯 分 类 所 涉及 的 属性 相互 独立 的 条 件 被 满足 时 ， 简 单 贝 叶 斯 
分 类 所 得 到 的 最 大 可 能 分 类 结果 cws， 和 贝 叶 斯 定理 的 最 大 可 能 假说 hyap 的 结果 是 一 致 的 。 

以 下 例 说 明 简 单 贝 叶 斯 分 类 如 何 进行 概念 学 习 ， 并 进行 分 类 预测 : 

某 银行 希望 能 增加 办 理 信用 卡 的 人 数 。 假 设 目 前 考虑 办 卡 的 相关 属性 有 “性 别 ”“ 年 
龄 ^“ 学 生 身 份 ^“ 收 入 ”四 种 。 分 类 目标 为 “办 卡 ” 类 别 有 “ 会 ”、“ 不 会 ”两 种 ， 假 设 
现 有 如 表 8-1 所 示 的 10 笔 训 练 样本 。 则 根据 表 8-1 所 示 , 使 用 简单 贝 叶 斯 分 类 , 会 将 女性 ， 
年 龄 介 于 31 一 45 Z i), 不 具 学 生 身 份 , 收入 中 等 的 个 人 归 类 到 “会 ”办 理 信用 卡 的 类 别 中 。 


表 8-1 10 笔 训练 样本 


项 B | 性 s # k 收 入 5 ot 
1 5 >45 高 会 
2 女 31—45 高 会 
3 女 20—30 低 会 
4 3 <20 | 是 | m 不 会 
5 女 20-30 | æ | 中 不 会 
6 女 20—30 中 会 
7 女 31—45 高 会 
i a as | 2 | + FE 
; a [xs i ^ 
10 女 <20 | RR | 低 会 


要 判断 〈 女 性 ， 年 龄 介 于 31 一 45 之 间 ， 不 具 学 生 身份 ， 收 入 中 等 者 ) 会 不 会 办 理 信用 


卡 ， 首 先 应 根据 训练 样本 ,计算 各 属性 在 不 同 分 类 结果 下 的 条 件 概率 : 
P( 性 别 = 女 | 办 卡 = 会 )= 5⁄7 P( 性 别 = 女 | 办 卡 = 不 会 )= 1/3 
PER =31 一 45| 办 卡 = 会 )=3/7 P( 性 别 =31 一 45| 办 卡 = 不 会 )= 1⁄3 
PEE = RAF = 会 )= 5/7 P( 学 生 = 否 | 办 卡 = 不 会 )= 0/3 
POKA = 中 | 办 卡 = 会 )= 2/7 PUN = 中 | 办 卡 = 不 会 )= 2/3 


应 用 简单 贝 叶 斯 分 类 进行 类 别 预 测 : 
Cyg = arg max ree) [Pr |e;) 
) i 


cje{ 会 ,不 会 


= argmax P(c,)P(TE5Il =£ |c )PCFE? =31~ 45|c;) 
2) 


cje{ 会 ,不 会 
XP( 学 生 = 和 否 |cj))P( 收 入 = 中 |c)) 
再 计算 有 关 的 条 件 概率 值 : 
P( 办 卡 = 会 )= 7/10 
P( 办 卡 = 不 会 )= 3/10 
P( 会 )P( 女 | 会 )P(31 一 45)| 会 )P( 否 | 会 )P( 中 | 会 ) = 15/343 守 0.044 


一 一 7 三/ 
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P( 不 会 )P( 女 | 不 会 )P(G31 一 45| 不 会 )P( 中 | 不 会 )= 0 

因此 基于 表 8-1 的 训练 样本 ， 对 于 女性 ， 年 龄 介 于 31—45 之 间 ， 不 具 学 生 身份 ， 收 入 
中 等 的 个 人 ， 简 单 贝 叶 斯 分 类 会 将 其 分 类 到 会 办 理 信用 卡 的 类 别 。 而 且 办 理 的 概率 是 
(0.044)/(0.044 + 0) 2 1 正规 化 分 类 的 结果 P( 会 J(P( 会 )t+P( 不 会 ))。 

简单 贝 叶 斯 分 类 对 于 各 种 属性 相对 于 目标 值 ( 分 类 的 类 别 ) 的 条 件 概 率 ， 是 先 找 出 训 
练 样本 中 ， 某 目标 值 出 现 的 个 数 (n)， 及 在 这 些 目 标 值 的 样本 中 ， 特 定 属性 值 出 现 的 个 数 
mo 然后 将 nal n 作为 该 特定 属性 在 该 目标 值 下 的 条 件 概率 ,如 上 例 P( 性 别 = 女 | 办 卡 = A) 
的 条 件 概率 是 5/7， 因 为 10 笔 训 练 样本 一 共有 7 笔 是 会 办 卡 ， 而 会 办 卡 的 7 笔 中 ， 有 5 笔 
是 女性 。 

因为 各 属性 间 是 相互 独立 的 ， 一 旦 有 一 个 条 件 概 率 为 零 ， 这 种 方法 计算 出 来 的 各 项 目 
标 值 都 是 零 。 上 例 不 会 办 卡 的 概率 为 零 ， 因 为 受 了 P( 学 生 = 否 | 办 卡 = 不 会 )=0 的 影响 ， 
不 会 办 卡 的 概率 就 为 零 了 。 为 了 克服 训练 样本 选取 不 够 广泛 造成 零 概率 的 困境 ， 简 单 贝 叶 
斯 分 类 采用 了 m-estimate 加 以 改良 , 从 而 能 更 精确 地 作出 适当 的 分 类 。m-estimate 的 定义 为 : 


_ Pa +mp 


ntm 
其 中 : 
加 是 一 个 固定 的 常数 值 ， 主 要 用 来 决定 p 的 权重 ; 
p 为 同一 属性 不 同属 性 值 的 事前 概率 ， 一 般 而 言 采用 均匀 分 布 的 概率 值 ， 如 上 例 性 别 
只 有 两 种 可 能 ， 均 值 的 概率 ， 使 得 p=1/2 


8.2 Excel 2007 贝 叶 斯 概率 分 类 


Stepl: 选择 【数据 挖 据 】 一 【高 级 】 一 【创建 挖 抉 模型】 命令， 如 图 8-1 所 示 。 


Oa) DMAddins_SampleData - Microsoft Excel RIA ee 
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浏 清除 为 数 | 分 估 RE x< S |Z Om 9 类 A 浏 =Æ EE DMAddinsDB-Test m 0 | 
BE 数据 - RAR 类 计 DU 联 R «- EE XS GEB 览 du 模型 (ocalhost) R 助 -| 

sea sara x mur 。 | 管理 im COBE 
回回 = s 

cT "à f Male A semanas 
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n r; caj D E ~ 

1 用 于 分 析 关键 影响 因素 、 检 测 类 别 、 突 出 显示 
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el 70000 
Tal: 30000 
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Jule 4ncon 
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Tale 20000 
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duction] Table Analysis To 


图 8-1 创建 挖掘 模型 


IE B | 692007 数据 挖 握 完 全 手册 


Step2: 开始 使 用 创建 模型 向 导 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 8-2 Bras. 
= ID| x] 
* 创建 模型 向 导入 门 


加 


它 是 什么 ? 

i 创建 模型 向 导 人 允许 您 根据 Excel "E. Excel 区 域 或 
Analysis Services 查询 的 现 有 数据 建立 新 的 挖掘 模型 。 您 
可 以 指定 所 使 用 的 算法 以 及 希望 预测 或 用 作答 入 的 列 。 


它 做 些 什么 ? 
该 向 导 人 允许 您 选择 用 于 挖掘 模型 的 算法 ， 指 定 算法 使 用 的 参 | 
| 


数 ， 以 及 指定 输入 数据 中 要 使 用 的 列 。 


必须 连接 到 SQL Server Analysis Services 数据 库 才 能 使 
用 创建 模型 向 导 。 该 向 导 创建 的 模型 可 以 是 持久 性 的 或 临时 

的 。 若 要 创建 临时 模型 ， 必 须 将 服务 器 配置 为 允许 创建 临时 控 
掘 模型 。 请 与 您 的 服务 器 管理 员 联系 ， 确 保 服 务 器 设置 允许 创 
娃 临 时 挖掘 模型 。 该 向 导 还 旬 许 您 指 宗 模型 是 否 保留 定型 数据 加 


F 不 再 显示 此 欢迎 页 (D)。 


图 8-2 创建 模型 向 导 
Step3: 选中 【数据 区 域 】 单 选 按钮 ， 选 中 【我 的 数据 区 域 包含 页 眉 】 复 选 框 ， 并 选择 
红色 部 分 可 选择 数据 区 域 ， 如 图 8-3 所 示 。 
= ID|x| 


选择 源 数据 
< 
CD: "Table Analysis Tools Sample’ !'Table2' 
c 数据 区 域 (D) : P Table Analysis Tools Sanple’ !$A:$1 
F 我 的 数据 区 域 包含 页 眉 (ID 

C hnalysis Services 数据 源 (&) : 

数据 源 名 称 (8) : j | <| 

查询 (9) : = 


请 选择 一 个 包含 多 个 单元 的 方形 区 域 。| 


图 8-3 选择 数据 区 域 
Step4: 在 【区 域 选择 】 文 本 框 中 选择 或 者 输入 特定 的 数据 范围 ， 如 图 8-4 所 示 。 
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@- “x 


K DE 
DMAddinsDB-Test 跟 = 
(localhost) = | m- || 


Lr 


A B k. p E F ç H 1 1 kL x 
! 用 于 分 析 关 键 影响 因素 、 检 测 类 别 、 突 出 显示 异常 值 和 应 用 场景 分 析 的 示例 数据 
2 
3 FN it sth JITTTR IT Bocce Enone omc > FEF: ITTTIETEEL TIE TTIYYWL | 
4 12496 Married Fenale 4000 S CET E p piles Europe — 42 No 
5 | 24107 Married Male 30000 ?| X| iss Europe 43 No 
6 MITT Married Male 80000 [Miles Europe — 60 To 
T| 24381 Single 10000 Miles Pacific 41 Yes 
8 | 25597 Single Male 30000 — [$A$3:$1$1003 tiles Europe 36 Yes 
9 | 13507 Married Fenale 10000 Miles Europe 50 No 
10 | 27974 Single Male 160000 An [Miles Pacific 33 Yes 
11 | 19364 Married Male 40000 Miles Europe 43 Yes 
12 22185 Married Male 20000 2 Partial High SclClerical Yes 2 8-10 Niles Pacific 58 No 
13| 19280 Married Male 20000 — 2 Partial College Manual Yes 1 0-1 Miles Europe — 48 Yes 
14 | 22113 Married Fenale 30000 3 HighSchool Skilled Mans No 2 1-2 Niles Pacific 54 Yes 
15| 12697 Fenale 90000 — 0 Bachelors Professional No 4 10+ Niles Pacific 
181 MAAA Mannini may, LE EM E UL a n-1 M. — 
eh oduetion| Table Analysis Tools Sample "Forecasting Fill From Example  Souz] 
ma a 


图 8-4 输入 特定 的 数据 范围 
Step5: 单 击 【 下 一 步 】 按 钮 ， 如 图 8-5 所 示 。 


据 模 型 向 导 -loj x 
选择 源 数据 X 
CD: [rabie Analysis Tools Sample ! Table? z 
C 数据 区 域 (D) : [ Table Analysis Tools Sample’ !$A$3:$M$1003 B 


F 我 的 数据 区 域 包含 页 届 (ID 
C hnalysis Services SE): 


数据 源 名 称 (8) : E sel 
查询 (9) : x 


E 


T-sm»| s | 


图 8-5 选择 源 数据 


Step6: 在 【算法 】 下 拉 列 表 框 中 选择 Microsoft Naive Bayes 选项 ， 如 图 8-6 所 示 。 单 
击 【 人 参数】 按钮 可 更 改 其 参数 预 设 值 ， 这 里 采用 其 默认 设 定 ， 不 做 修改 。 
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A RREAN 向 导 ; -lnl xl 
选择 控 据 算法 


选择 控 气 算法， 同时 也 可 以 设置 算法 参数 


算法 : [microsoft Naive Bayes z 


< 上 一 步 (@B) xw | 
图 8-6 选择 挖掘 算法 
Step7: 将 自 变量 设 定 为 “输入 ” 预测 变量 设 定 为 “ 仅 预 测 ” 如 图 8-7 所 示 。 此 数据 中 
的 序号 设 定 为 key， 若 不 使 用 的 变量 则 设 定 为 “不 使 用 ”， 完 成 后 单 击 【 下 一 步 】 按 钮 。 


AX 创建 控 握 模型 向 导 inl x| 


选择 列 A 


alel 


321 | 用 法 I jz 
Gender | 输入 = 
Incone 输入 xl 
Children | 给 入 了 | 
Education ESN z. 
Occupation a El 
Hone Owner A =l 
Cars | 输入 = 
Connute Distance BI El 
Region [RA 到 |. | 
Age | 输入 E: 

I ba 


< 上- 步 (B) 取消 [|| 
图 8-7 选择 列 
Step8: 选中 【浏览 模型 】 复 选 框 ， 单 击 【 完 成 】 按 钮 ， 可 更 改 【 结 构 名 称 】 及 【模型 
名 称 】 文 本 框 内 容 ， 如 图 8-8 所 示 。 
Step9: 选择 【依赖 关系 网 络 】 选 项 卡 ， 若 结果 有 多 个 变量 与 预测 变量 存在 关系 ， 则 可 
调整 所 有 链接 ， 找 出 其 中 关联 的 强 弱 程度 ， 如 图 8-9 所 示 。 
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A 创建 挖掘 模型 向 导 -lolx| 
T X 
结构 名 称 (SD) : 区 域 结构 
T 
结构 说明 (0): EUR UA NU 
模型 名 称 (ID : [E - Bayes 
7 3E “$A$3: js 立 的 = 
ammo: i AT E 
选项 
Ie WWE (R) 
r E HGD. (E) 
< 上 一 步 (B) ERD 取消 
《上 -4 | — w | 
图 8-8 完成 
ura | = Il xi 
依赖 关系 网 络 | 属性 配置 文件 | 属性 特征 | 属性 对 比 | 
Qa a| a| 到 到 aj 厂 显示 长 名 称 (L) 


Purchased Bike 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 


saws META 国 ETANTE 
JT ARI PETS EGET 


复制 到 Excel (E) 


8-9 【依赖 关系 网 络 】 选 项 卡 


Step10: 选择 【属性 配置 文件 】 选 项 卡 ， 可 调整 【直方 图 列 】， 如 图 8-10 所 示 。 
Stepll: 单 击 【复制 到 Excel】 按 钮 可 将 结果 输出 到 Excel 中 ， 从 如 图 8-11 所 示 中 可 得 
知 所 选 出 的 自 变量 在 不 同 状 态 下 与 预测 变量 的 结果 比较 。 
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< 浏览 
依赖 关系 网 络 属性 配置 文件 | 属性 特征 | 属性 对 比 | 


Iv Stm 直方 图 条 数 : [4 习 可 预测 : [Purchased Bi 


复制 到 Excel (E) 


图 8-10 【属性 配置 文件 】 选 项 卡 


DMAddins SampleData - Microsoft Excel "x 
(B9 开始 插入 ”页面 布 有 At BA 审阅 视图 RAR @ - “ x 
8 3 AnzeXxaen8u mato K DUX 
ME 清除 SW 分 6 Ee 关 预 高 O pl 利 DMAddinsDR-Test M @# 
| mm 数据 - [OB 类 i 分 折 Bom m nene Gm & 5 E (localhost) — PR | 助 - 
| 数 泥 在 备 mueiem JERE 模型 用 法 em 连接 都 助 
人 
Cl3 -G £ B 
A | B c. D E E 6 H 1 J K L š 
区 域 — Bayes 


1 

2 属性 配置 文件 

3 Purchased Bike 

4 K: RSE 总 休 (EAE LQ |- EC 日 
5 1000 519 
6 345 425 


267 22% 
243 18 $ d 
8 105 
60 85 


8-11 ”将 结果 输出 到 Excel 


Step12: 选择 【属性 特性 】 选 项 卡 ， 可 更 改 【 值 】 为 不 同 的 预测 变量 ， 单 击 【 复 制 到 
Excel】 按 钮 ， 如 图 8-12 所 示 。 
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I 网 


依赖 关系 网 络 | 属性 配置 文件 。 属性 特征 | 属性 对 比 | 


属性 : [Purchased Bi] 值 :mr。 可 


复制 到 Excel (E) 


图 8-12 【属性 特征 】 选 项 卡 
Step13: 可 将 Step12 中 所 列 出 的 结果 显示 在 Excel 上 ， 如 图 8-13 所 示 。 


DMAddins_SampleData - Microsoft Excel -mx 


(89) s. 插入 ”页面 布局 At 数据 ”市 阅 AA | numis 
ud cvm] TROR B 


浏览 清除 为 数 ”分 估 EM x< 高 准确 分 类 X 浏 139  DMAddinsDB-Test $R 
| 数据 数据 - 据 分 区 类 it DW E a @- tE E 润 图 E x 模型 (localhost) 踪 
数据 准备 数据 建 模 准确 性 和 验证 模型 用 法 管理 连接 帮助 | 


> 
> 
w 
= 
e 
m 
s 
= 
ME 


区 域 - Bayes 
属性 特征 
Purchased Bike=Yes 


| 


M-* ^ M| Introduction, Table Analysis Tools Sample ,属性 配置 文件 | 属性 特征 , Forecasting 


= [Ea n mm 
8-13 # Excel 上 显示 的 结果 


Stepl4: 选择 【属性 对 比 】 选 项 卡 ， 调 整 【 值 1】 及 【 值 2】 下 拉 列 表 框 内 容 ， 如 图 8-14 
所 示 。 


7 从 


|H [ ExcsL2007 šj 7 


= D| x] 
依赖 关系 网 络 | 属性 配置 文件 | 属性 特征 属性 对 比 | 控 握 图 例 
属性 : [Purchased Biz iE 1: fio zi (8 2:[ 所 有 其 人 状态 = No 所 有 其 他 状态 


AWE Excel (E) BIO 
p. p 5 


8-14 【属性 对 比 】 选 项 卡 
Step15: 单 击 【复制 到 Excel】 按 钮 ， 可 将 Step14 中 所 列 结果 显示 在 Excel E, wW 


8-15 所 示 。 
Ca DMAddins SampleData - Microsoft Excel Ee 
WED) me mA mmes At BE aA 。 视图 | SERE ax 
aag sa p @ % 2 &S AAD A & 未 D 区 
WS Me om | 分 估 EX x F m m m # m x DMAddinsDD-Test a " 
| 数据 数据 - 据 分 区 类 计 2v EOM 级 -| MERE Xm x ow | (localhost — 踪 | 助 - 
MuR 数据 奸 模 准 左 性 和 验证 模型 用 法 。 管理 连接 帮助 
kdo ce s 
[ = MU n x 
m G D E F G H 1 JN 
1 区 域 - Bayes 
2 属性 对 比 
3 Purchased Bike P. 
4 图 倾向 于 所 有 其 他 状 坊 _ 加 | 
| 2 maa 
m 


8-15 # Excel 上 显示 的 结果 


Step16: 单 击 【数据 挖掘 】 中 的 【利润 图 】 按 钮 ， 弹 出 【利润 图 向 导入 门 】 窗 口 ， 然 
i [F] jH, WR 8-16 所 示 。 
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= D| xl 
”利润 图 向 导入 门 


L 


它 是 什么 ? 
利润 图 向 导 人 允许 您 根据 Excel #. Excel KÈ Analysis 
Services 查询 的 测试 数据 为 现 有 分 类 模型 生成 利润 图 。 利 润 
图 显示 与 挖掘 模 型 的 使 用 相关 联 的 估计 利润 增长 情况 ， 以 确定 
在 商业 应 用 场景 中 公司 应 与 哪些 客户 联系 。 该 图 的 Y Ae. 
利润 ，X 轴 代 表 公 司 联系 的 客户 总 体 的 百分比 。 利 润 图 通常 
显示 利润 的 增 减 情况 ， 即 利润 在 到 达 一 个 转折 点 之 前 持续 增 
长 ， 但 在 该 转折 点 后 ， 随 着 联系 的 客户 个 体 数量 增多 ， 利 润 反 
而 减少 。 
它 做 些 什么 ? 
该 向 导 允 许 您 (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 评估 的 模 
型 、 模 型 的 输出 列 、 可 预测 列 的 目标 状态 和 测试 数据 源 。 该 向 


导 还 允许 您 定义 测试 数据 列 和 模型 列 之 间 的 映射 ， 然 后 定义 与 
您 的 商业 应 用 场 量 相关 的 成 本 和 利 酒 - 


4 
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图 8-16 【利润 图 向 导入 门 】 窗 口 
Step17: 选择 【区 域 结构 】 中 的 贝 叶 斯 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 8-17 所 示 。 


_ D| x 
选择 模型 ss 


Microsoft_Naive_Bayes 


TRIE "$AS3:$M$1003" [X 
域 建立 的 


Microsoft_Naive_Bayes 模 
型 


Purchased Bike 


l4 


«r-5e|[r-5am»] x J, 


图 8-17 选择 模型 


Step18: 可 调整 “要 预测 的 值 ””“ 目 标 总 体 ”“ 固 定 成 本 ”“ 单 项 成 本 ”“ 单 项 收入 ” 
等 项 目 。 调 整 完 后 单 击 【下 一 步 】 按 钮 ， 如 图 8-18 所 示 。 
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ox 
指定 利润 图 参数 
H 
要 预测 的 控 据 列 QD : ` 
要 预测 的 值 ( 四 ; [rm zi 
目标 总 体 (IT) : [50000 zi 
回 定 成 本 (ED) : [5000.00 = 
单项 成 本 (ID : Fo Jal 
单项 收入 (R) : 15. 00 
说 明 
此 任务 通过 使 用 “区 域 - Bayes” 模 型 对 所 产生 的 利润 a| 100 
进行 建 模 ， 从 而 在 类 似 于 向 导 下 一 页 所 选 测试 数据 的 数 
据 中 识别 事例 “Purchased Bike” = “No” o so 
任务 假设 将 模型 预测 应 用 于 实际 数据 会 产生 (采用 
EEA AAEE, 
< 上 一 步 (8) | | F-# W > 取消 
E — w |, 


图 8-18 ”调整 参数 


Step19: 选中 【数据 区 域 】 单 选 按钮 ， 并 选中 【我 的 数据 区 域 包含 页 眉 】 复 选 框 ， 选 
择 红色 部 分 可 选择 数据 ， 如 图 8-19 所 示 。 


—ID| x] 
选择 源 数据 em 
CHOXGD: "Table Analysis Tools Sample' !'Table2" 
G 数据 区 域 (D) : 


C Analysis Services 数据 源 (&) : 


数据 源 名 称 (8) : el 
查询 (@) : =] 


z 
《< 上-- 步 @) |[ w>] 。 ww p 


A 


图 8-19 选择 源 数据 
Step20: 单 击 【 下 一 步 】 按 钮 ， 弹 出 如 图 8-20 所 示 的 【指定 关系 】 窗 口 。 


— g 


es weej NE 


alx 
指定 关系 
指定 模型 列 和 输入 列 之 间 的 关系 : 
Ex 32] | 表 列 
— < 到 
Cars [Cars >| 
Children [Children xj 
Connute Distance |Commute Distance —- 到 
Education [Education 到 
Gender [Gender Zj 
Hone Owner [Hone Owner 到 
Incone Income 到 | 
Marital Status Marital Status zj 
Occupation [Occupation 到 | 
Purchased Bike |Purchased Bike 了 | 
Region [Region z 


图 8-20 【指定 关系 】 窗 口 
Step21: 单 击 【完成 】 按 钮 后 ， 可 得 到 该 模型 的 利润 图 ， 如 图 8-21 所 示 。 


C 二 mus ”公式 。 数据 m “mm @- = 
Py k == Ju -| (8 D A (m E t 


wx 了 PIUA] E # aa me wx eum Š. 
[& |o - ae] |de de || Š b i 
^| NFR ^ 编辑 


IE 
jx 
[ 


š 
n B B 


c D E 
模型 “区域 - Bayes" 的 利润 图 
:Purchased Bike"- No 


0 2/002 om = 


s 


25 o% 20% 40% 60% 
ag | (Z50000) 总 体 百分比 

narn Table Analysis Tools Sample fj ime ges 
mac 


8-21 利润 图 


第 9 章 关联 规则 


9.1 基本 概念 


关联 规则 是 分 析 并 发 现 数据 库 中 不 同 变量 或 个 体 间 (例如 研究 不 同 商品 间 的 关系 及 年 
龄 与 购买 行为 等 ) 的 关联 程度 (或 概率 大 小 )， 并 利用 关联 规则 建立 顾客 购买 行为 模型 ， 如 
购买 了 台式 计算 机 对 购买 其 他 计算 机 外 设 商品 (打印 机 、 音 箱 、 硬 盘 等 的 相关 影响 。 发 
现 这 些 规则 可 以 应 用 于 商品 货架 摆设 、 库 存 安排 以 及 根据 购买 行为 模型 对 客户 进行 分 类 等 。 

关联 规则 最 早 是 由 Agrawal 于 1993 年 提出 ， 他 对 关联 规则 的 定义 如 下 : 

假设 Ehh ny: 可 视 为 m 个 商品 项 目的 集合 。 

D^(tut, st): D 为 n 位 客户 交易 的 总 集合 。 

其 中 t Uso,day: 代表 第 i 位 客户 的 交易 数据 。 

关联 规则 的 代表 式 “if condition then result ”。 即 :“X > Y", Kp x, 了 称 作 项 目 集 
(itemsets )。 

关联 规则 中 有 两 个 重要 的 参数 ， 分 别 为 支持 度 〈support) 和 可 信 度 (confidence), JÉ 
中 支持 度 是 指 XX 项 目 集 与 项目 集 , 同时 出 现在 DD 交易 总 集合 的 次 数 , 除 以 D 交易 总 集合 
的 个 数 ， 以 概率 的 观点 来 看 ， 支 持 度 就 是 同时 发 生 X. 了 事件 的 概率 。 可 信和 度 是 指针 项 目 
集 与 了 项 目 集 , 同时 出 现在 DD 交易 总 集合 的 次 数 , 除 以 全 项目 集 在 D 交易 总 集合 出 现 的 次 
数 ， 以 概率 的 观点 来 看 ， 可 信 度 就 是 在 事件 发 生 的 情况 下 ,7 事件 发 生 的 概率 。 

例如 : 有 商品 牛奶 和 面包 ， 其 被 购买 的 概率 如 表 9-1 所 示 。 


表 9-1 商品 被 购买 概率 


事件 组 合 概率 /% 
牛奶 35 
面包 50 
牛奶 和 面包 25 


得 到 的 关联 规则 为 :“ 牛 奶 污 面包 ”支持 度 为 0.25， 可 信 度 为 0.25/0.35=0.714。 意 思 是 
全 部 顾客 中 ， 有 25% 的 人 买 了 牛奶 也 买 了 面包 ， 而 且 买 牛奶 这 项 商品 的 顾客 中 ， 有 71.4% 
的 人 也 会 一 起 购买 面包 。 

另外 ， 有 些 学 者 认为 单 以 支持 度 和 可 信 度 衡量 规则 的 好 坏 不 够 充分 ， 还 需 考 虑 项 目 集 
彼此 间 的 相互 关系 。 因 此 又 产生 了 “兴趣 度 ”(interesting) 或 称 “ 增 益 ”(improvement) 等 
指标 ， 其 具体 的 公式 如 下 : 
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wm g = ConfidemQr >Y) P(X & Y) 
P(Y) P(X)P(Y) 
当 兴 趣 度 大 于 1 时 ， 这 条 规则 就 是 比较 好 的 ; 当 兴 趣 度 小 于 1 时 ， 这 条 规则 就 是 没有 
太 大 意义 的 。 兴 趣 度 越 大 ， 规 则 的 实际 意义 就 越 好 。 


92 关联 规则 的 种 类 


将 关联 规则 按 不 同 的 情况 进行 分 类 。 

1 基于 规则 中 处 理 的 变量 的 类 别 ， 关 联 规则 可 以 分 为 布尔 型 和 数值 型 

布尔 型 关联 规则 处 理 的 值 都 是 离散 的 、 类 别 的 ， 它 显示 了 这 些 变 量 之 间 的 关系 ， 而 数 
值 型 关联 规则 可 以 和 多 维 关联 或 多 层 关联 规则 结合 起 来 ， 对 数值 型 字段 进行 处 理 ， 将 其 进 
行动 态 地 分 制 ， 或 者 直接 对 原始 的 数据 进行 处 理 ， 当 然 数值 型 关联 规则 中 也 可 以 包含 种 类 
变量 。 

例如 性别 =“ 女 ”二 职业 = “秘书 ” 是 布尔 型 关联 规则 ， 性别-“ 女 ” —avg (收入 ) 
-2 300， 涉 及 的 收入 是 数值 类 型 ， 所 以 是 一 个 数值 型 关联 规则 。 

2. 基于 规则 中 数据 的 抽象 层次 ， 可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 

在 单 层 的 关联 规则 中 , 所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 
而 在 多 层 的 关联 规则 中 ， 对 数据 的 多 层 性 已 经 进行 了 充分 考虑 。 

例如 ，IBM 台式 机 一 Sony 打印 机 ， 是 一 个 细节 数据 上 的 单 层 关联 规则 ; 台式 机 =Sony 
打印 机 ， 是 一 个 较 高 层次 和 细节 层次 之 间 的 多 层 关联 规则 。 

3。 基 于 规则 中 涉及 的 数据 的 维 数 ， 关 联 规则 可 以 分 为 单 维 的 和 多 维 的 

在 单 维 的 关联 规则 中 ， 只 涉及 数据 的 一 个 维 ， 如 用 户 购买 的 物品 ;而 在 多 维 的 关联 规 
则 中 ， 要 处 理 的 数据 将 会 涉及 多 个 维 。 换 句 话说 ， 单 维 关联 规则 是 处 理 单个 属性 中 的 一 些 
关系 ， 多 维 关联 规则 是 处 理 各 个 属性 之 问 的 革 些 关系 。 

例如 ， 啤酒 > 尿 布 ， 这 条 规则 只 涉及 用 户 购买 的 物品 ， 性 别 =“ 女 ”= 职业 = “秘书 ” 
这 条 规则 就 涉及 两 个 字段 的 信息 ， 是 两 个 维 上 的 一 条 关联 规则 。 

给 出 了 关联 规则 的 分 类 之 后 ， 在 下 面 的 分 析 过 程 中 ， 就 可 以 考 虐 基 个 具体 的 方法 适用 
于 哪 一 类 规则 的 挖掘 ， 某 类 规则 又 可 以 用 哪些 不 同 的 方法 进行 处 理 。 


93 关联 规则 的 算法 : Apriori 算法 
Apriori 算法 为 研究 关联 规则 的 入 门 算法 ， 也 是 研究 关联 规则 最 具 代 表 性 的 算法 之 一 。 


其 利用 和 迭代 的 方式 ， 找 出 数据 库 中 项 目 集 的 并 发 关系 ， 并 形成 规则 。 


7185 
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1. 执行 步骤 

@ 首先 ， 须 指定 最 小 支持 度 及 最 小 可 信 度 。 

Q) Apriori 算法 使 用 了 候选 项 目 集 的 观念 ， 首 先 产生 出 项 目 集 ， 称 为 候选 项 目 集 ， 若 
候选 项 目 集 的 支持 度 大 于 或 等 于 最 小 支持 度 , 则 该 候选 项 目 集 为 高 频 项 目 集 (large itemset)。 

@ 在 Apriori 算法 的 过 程 中 ， 首 先 由 数据 库 读 入 所 有 的 交易 ， 得 出 候选 单项 目 集 
(candidate 1-itemset) 的 支持 度 ， 再 找 出 高 频 单项 目 集 (large 1-itemset)， 并 利用 这 些 高 频 
单项 目 集 的 结合 ， 产 生 候选 2 项 目 集 (candidate 2-itemset)。 

@ 再 扫描 数据 库 ， 得 出 候选 2 项 目 集 的 支持 度 以 后 ， 再 找 出 高 频 2 项 目 集 ， 并 利用 这 
些 高 频 2 项 目 集 的 结合 ， 产 生 候选 3 项 目 集 。 

C 重复 扫描 数据 库 ， 与 最 小 支持 度 比较 ， 产 生 高 频 项 目 集 ， 再 结合 产生 下 一 级 候选 项 
目 集 ， 直 到 不 再 结合 产生 出 新 的 候选 项 目 集 为 止 。 

2. 优点 

简单 易 懂 ， 容 易 实现 。 

3. 缺点 

因 计 算 项 的 个 数 过 多 而 造成 执行 缓慢 ， 主 要 原因 在 于 高 频 项 目 集 产生 过 多 的 候选 项 目 
集 ， 尤 其 是 候选 2 项 目 集 的 情况 最 为 严重 ， 因 为 相当 于 计算 所 有 的 项 目 集 。 
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Stepl: 使 用 Excel 2007 SQL 2005 DM addin 范例 ， 数 据 为 范例 数据 中 的 Associate 窗口 
的 数据 。 单 击 工 具 栏 中 的 【关联 】 按 钮 ， 弹 出 如 图 9-1 所 示 的 【关联 向 导入 门 】 窗 口 ， 单 
击 【 下 一 步 】 按 钮 。 
太 关联 向 导 loj xi 
- 关联 向 导入 门 


它 是 什么 ? 

关联 向 导 允 许 您 根据 Excel R Excel 区 域 中 的 现 
有 数据 建立 关联 规则 模 : 型 p: m 同时 在 
N grass 出 现 的 项 之 间 的 关联 性 ， 通 常用 于 市 场 得 


=== — 


B CREMAT ptio 5 
e EASA ONEIRRE AURREZ HNT 
的 列 。 


注释 

必须 连接 到 SQL Server Analysis Services 数据 
库 才 能 使 用 关联 向 导 。 L UTE trn 
48 GF CES NIB EO. IEEE DAL 


u 


r 不 再 显示 此 欢迎 页 (D)。 
TA] ms |. 


图 9-1 【关联 向 导入 门 】 窗 口 
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Step2: 选择 表 或 者 选择 数据 区 域 ， 单 击 【下 一 步 】 按 钮 ， 如 图 9-2 所 示 。 


关联 向 导 


9-2 ”选择 源 数 据 


Step3: 决定 所 要 预测 的 项 目 ， 在 此 预测 类 别 目录 与 产品 之 间 的 关联 ， 然 后 单 击 【 下 一 
步 】 按 钮 ， 如 图 9-3 所 示 。 


图 9-3 关联 
Step4: 选中 【启用 钻 取 】 复 选 框 ， 并 单 击 【 完 成 】 按 钮 ， 如 图 9-4 所 示 。 


=s 
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结构 名 称 (3 : [rab1e20 结构 
结构 说 明 (D) : ER Associate E 
EIER: PEE category 
" HE EVE z 

ammo: Microsoft oso atin Rules S - 
-选项 

F VAR (R) 

F 医用 呵呵 模型 IJ 

Tv BHR 


«r-»99[[ so |] mm |, 
图 9-4 单 击 【完成 】 按 钮 


Step5: 关联 规则 如 图 9-5 所 示 ， 图 中 展示 了 各 种 类 别 目录 或 产品 间 的 关联 ， 也 同时 给 
出 了 其 概率 值 和 重要 性 。 


-loj xl 

z] semi: [ 国 

最 低 重要 性 : [oona mn: [stre Want S| 
r 显示 长 名 称 最 大 行 数 : [xo =] 


J 
Ey Stands = SA, Road Bikes = 现 有 — Tires and Tubes = HUE 
Bike Stands = WA -> Tires and Tubes = 现 有 
Hydration Packs = WA, Road Bikes = MA -> Bottles and Cages = 现 有 
Hydration Packs = WA, Helmets = 现 有 -> Tires and Tubes = 现 有 
+ Socks = WA, Mountain Bikes = WA -> Fenders = RA 
Hydration Packs = WA, Jerseys = 现 有 -> Bottles and Cages = 现 有 
Cleaners = MA, Touring Bikes = MA -> Bottles and Cages = 现 有 
Vests = WA, Touring Bikes = MA -> Bottles and Cages = MA 
Vests = MA, Mountain Bikes = MA -> Fenders = RA 
Gloves = WA, Touring Bikes = WA -> Helaets = RA 
Vests = WA, Helmets = 现 有 -> Tires and Tubes = HA 
Hydration Packs = WA, Cleaners = 现 有 -> Bottles and Cages = RA 
Hydration Packs = MA, Fenders = MWA -> Mountain Bikes = RA 
Bike Racks = MA, Fenders = MA -> Mountain Bikes = 现 有 
Fenders = WA, Caps = WA -> Mountain Bikes = HA 
Hydration Packs = MA, Touring Bikes = MA -> Bottles and Cages = WA 
Cleaners = WA -> Tires and Tubes = HA 
Bike Racks = 现 有 -> Tires and Tubes = RA 
Hydration Packs = MA, Touring Bikes = WA -> Tires and Tubes = MA 
Jerseys = HUB, Tires and Tubes = MA -> Helmets = HA 
Gloves = WA, Tires and Tubes = WA — Helmets = RA 
Fenders = WA, Bottles and Cages = 现 有 -> Mountain Bikes = RA 
Hydration Packs = WA, Caps = MA -> Bottles and Cages = MA 
Caps = WA, Tires and Tubes = WA -> Helmets = RA 
Gloves = WA, Helmets = MA -> Tires and Tubes = HA 
有 = 现 有 


RB Excel 加 
9-5 ”关联 规则 
Step6: 将 图 表 复制 到 Excel， 如 图 9-6 所 示 。 


— zg 


*o& xxsu] I! 


关联 Cat egory 


La] 

2 规则 

3 

4 ETI 

5 0.33 Bike Stands = AH, Roed Bikes = MH — Tires and Tubes = MA 
c m 0.26 Bike Stands = 项 有 -> Tires and Tubes = BE 

7 E 0.55 Hydration Packs = WH, Road Bikes = 现 有 — Bottles and Cages = 
s m 0.22 Hydration Packs = MA, Helmets = MA -> Tires and Tubes = MA 
9 m 0.84 Socks = JH, Mountain Bikes = 现 有 -> Fenders = 现 有 

10 EE 0.45 Hydration Packs = Jf, Jerseys = HW — Bottles and Cage: 

11 0.45 Cleaners = MH, Touring Bikes = WH -> Bottles and Cages 

12 0.45 Vests /É, Touring Bikes = 现 有 -> Bottles and Cages = 3 

13 0.81 Vests = MË, Mountain Bikes = Hf -> Fenders = MA 

14 0.20 Gloves = JE, Touring Bikes = HU -> Helne: 现 有 

is e 0.10 Vests = JE, Helmets = MH -> Tires and Tubes = 现 有 

16 Be 0.41 Hydration Packs = JU], Cleaners = MH — Bottles and Cages = MH 
5 0.54 Hydration Packs = JU, Fenders = 现 有 -> Mountain Bikes = WA 
18 EE 0.53 Bike Racks = MË, Fenders = 现 有 -> Mountain Bikes = MA 

n Nima xs nm a ma — =— A —— < ne =— 

Mc» n| Source Data Training Data Testing Data, New Customers Associate t 

mm n 


9-6 ”复制 到 Excel 


Step7: 关联 项 目 集 ， 如 图 9-7 所 示 。 


TR | 规则 | 依 于 关系 网 络 | 


最 低 支 持 : 
最 小 项 集 大 小 : 
r 显示 长 名 称 


复制 到 Excel (E) 


ho a 师 和 项 第 : 
p =] B=: 
最 大 行 数 : 


Bike Racks = WA, Fenders = WA, Mountain Bikes = MA 
Bike Stands = WA, Road Bikes = WA, Tires and Tubes = HA 
Bottles and Cages = WA, Helmets = WA, Tires and Tubes = HA 
Bottles and Cages = HA, Helmets = HA 
Bottles and Cages = WA, Tires and Tubes = 现 有 

W, Tires and Tubes = RA 
Bottles and Cages = RA 
Helmets = RA 
Mountain Bikes = 现 有 
Road Bikes = RA 
Tires and Tubes = 现 有 
= HUB, Bottles and Cages = HA 
HA, Helmets = HA 
NA, Tires and Tubes = NA 
Road Bikes = WA, Bottles and Cages = HA 
Road Bikes = WA, Helmets = 现 有 
Road Bikes = WA, Tires and Tubes = RA 
Touring Bikes = WA, Bottles and Cages = RA 
Touring Bikes = WA, Helmets = NA 
Touring Bikes = RA, Jerseys = HA 
Touring Bikes = WA, Tires and Tubes = RA 
Cleaners = WA, Bottles and Cages = WA, Tires and Tubes = HA 
Cleaners = WA, Fenders = WA, Nountain Bikes = RA 

H, Fenders = WA, Tires and Tubes = RA 
Mountain Bikes = WA, Bottles and Cages = HA 
Tentai Bikan = RA, 


DMAddins. SampleData [EPI] - Microsoft Excel -=x 

Bus =m am | nem | @- =< 

= P ] 

Z | 

XAS & A8 K 2R | 
X m 5 Eme nx ma 300 = S% DMAddinsD8-Test mo # 
联 m go EROXE m g E Cm doao — m | m- 
eter emma ea E "m 

El] 

rm 


[ | 
[ERKESfE — — — | 
Jo 习 


现 有 


loj xl 


Step8: 
Step9: 


将 图 表 复 制 
图 9-9 为 各 关联 的 依赖 关系 网 络 图 ， 由 图 中 可 发 现 大 致 分 为 四 个 部 分 。 


9-7 ”关联 项 目 集 
到 Excel， 如 图 9-8 Pros. 
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| lox 
- Bam- IEA E- 
3 Eneas PBe- a. r ñ 
zamest Der 2 = 
sme Der RA 
wx (mum sa 


1 

2 

3 

4 Esi -EZS 

5 12 

6 13 3 Bike Stands = 现 有 ，Road Bi 

27 NN 3 Bottles and Cages = H, He 

a 57 3 Caps = SIĘ, Bottles and Cages 

9 im 3 Caps = MA, Bottles and Cages = AA, Tires and Tubes = HA 
10 127 NN , Helne:s = AH, Tires end Tubes = 现 有 

11 780 Jers AH, Bottles and Cages = MA 

12 73 E, Jerseys = 现 有 ，Helmets = 现 有 

15 5i . Jerseys = 现 有 ，Mountain Bikes = 现 有 

14 79B Æ, Road Bikes = WA 

15 66 B » Tires end Tubes = 现 有 

16 71 „ Mountain Bikes = MA, Bottles end Cages = MA 
17 ‘9 » Mountain Bikes = MA, Helnets = 现 有 

18 15 f, Moun: Bikes = AH, Tires end Tubes 


[Een EUER E 


PELE We 


9-8 ”复制 到 Excel 


EE 
项 集 | 规则 REXEN | 


A 到 到 到 到 al 27: EXWESRAG — =] HTÉEMUD 


Bike Stands = 现 有 
Bike Racks = 现 有 


( Tiresand Tubes = 现 有 » Bottles and Cages = 现 有 
2 q o" 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 


最 强 链 接 — [E] 所 选 节点 IB] 所 选 节点 区 测 此 节点 
回 此 节点 列 测 所 选 节点 B wam 


复制 到 Excel (E) J 关闭 人) I, 


A 


pu 
í Hydration Packs = RA ` 


9-9 ”依赖 关系 网 络 
Step10: 选择 关系 链接 强度 ， 可 知道 各 类 别 目录 或 产品 的 关系 强度 ， 其 中 分 别 是 Bike 
Stands 和 Tires and Tubes、Bottles and Cages 和 Hydration Packs、Mountain Bikes 和 Fenders 
的 关系 是 最 强 的 ， 如 图 9-10 所 示 。 
Stepll: 也 可 选择 【高 级 】- 一 【创建 挖掘 模型 】 命令 , 在 此 选用 范例 Table Analysis Tools 
Sample 工作 表 ， 如 图 9-11 所 示 。 


— yp 
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-Jgix| 


显示 属性 名 称 和 值 了 | 厂 显示 长 名 称 (了 
Hydration Packs = 现 有 


Bottles and Cages = 现 有 


Bike Stands = 现 有 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 
最 强 链接 。 [E] 所 选 节点 [E] 所 选 节点 殉 测 此 节点 
此 节点 殉 测 所 选 节点 IB om 


复制 到 Excel (E) 关闭 (C) 


Mountain Bikes = W 


Fenders = WA ) 


9-10 各 类 别 关系 强度 
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Step12: 在 选择 预测 关联 变量 时 ， 选 择 Marital Status 为 预测 变量 ， 如 图 9-12 所 示 。 
zigixi 


选择 列 X 
Sje 
*5j 用 法 = 
ID g 到 | 
Gender [RA = 
Income 输入 = 
Children | 输入 = 
Education - E | 输入 
Occupation | 输入 
Home Owner S | 输入 
Cars | 输入 
Commute Distance —- [RA - - 
Region 输入 =- 
E C 
«E50 | | T— 00 > 取消 
上 | j m 
图 9-12 选择 列 


Step13， 单 击 【 下 一 步 】 按钮 ， 并 选中 【启用 钻 取 】 复 选 框 ， 如 图 9-13 所 示 。 
-aixi 


完成 X 
结构 名 称 (3) : Frable2 $888 2 
I. 

结构 说 明 (0): M Tasia uds Re niam 习 
模型 名 称 (WD : [rab1e2 - 规则 

d HRI Table2 表 建 立 的 
模型 说 明 (0) : Microsoft Association Rules 模型 Ë 

选项 
F USES (R) 


csom] m | 


图 9-13 选中 【启用 钼 取 】 复 选 杠 


Step14: 图 9-14 为 关联 项 目 集 。 

Step15: 将 图 表 复 制 到 Excel， 如 图 9-15 所 示 。 
Step16: 图 9-16 为 关联 规则 的 概率 值 和 重要 性 。 
Step17: 将 图 表 复 制 到 Excel, Anf 9-17 所 示 。 
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项 集 jaw | 依赖 关系 网 络 | 
最 低 支持 : [ p umm 
最 小 项 集 大 小 : p =] m=: [ 屋 示 属性 名 称 和 值 O =] 


x 


Marital Status = Married 

Purchased Bike = No 

Male 

North America 

Gender = Fenale 

Income = 39050 - 71062 

Purchased Bike = Yes 

Marital Status = Single 

Marital Status = Married, Home Ow... 
Region = North America, Home Owne.. 
Connute Distance = 0-1 Niles 
Purchased Bike = No, Hone Owner 
Income = 39050 - 71062, Home Owne. 
Gender = Male, Hone Owner = Yes 
39050 - 71062, Region = ... 


Female, Hone Owner = Yes 
Purchased Bike = Yes, Home Owner ... 


9-14 ”关联 项 目 集 


DMAddins_SampleData [收复 的 ] - Microsoft Excel C did 
公式 mm sm ”视图 | KEE | @- = x 
wXuws mui 5 OA K o | 
XX x SF m mM 分 类 mm X E DMAddinsDB-Tet m — @ | 
$n & NM s Em Ex 图 x 询 mw Wocalhos) — 8 | m- | 
nawa 准确 性 和 验证 模型 用 法 wm 连接 地 助 


£ Table2 = 规则 


Table2 — 规则 


2 Marital Status Yes 
2 Regicn = North America, Home Owner = Yes 

1 Commute Distance = 0-1 Files 

2 Purckased Bil lo, Home Ower = Yes 

2 Income = 29050 - 71062, Home Ownez = Yes 


2 
2 Gender = Female, Hone Owner = Yes 
2 Purckased Bike = Yes, Hone Omer = Yes 


ike = No, Marital Status = Married 
1 Education = Bachelors 

Europe 

Wale, Marital Status = Married 

North America, Marital Status = Married 


1Age < 37 


9-15 ”复制 到 Excel 
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Age >= 65, Cars = O -> Marital Status = Married — 

Occupation = Manual, Age = 55 - 65 — Marital Status = Married 

Education = Graduate Degree, Children = 2 -> Marital Status = Married 
Income >= 127371, Children = 5 — Marital Status = Married 

Education = Partial High School, Cars = 1 — Marital Status = Married 
Income 127371, Comaute Distance = 10+ Miles -> Marital Status = Married 


Income = 97111 - 127371, Cars = 0 -> Marital Status = Married 

Income >= 127371, Age = 55 - 65 -> Marital Status = Married 

Children = 5, Age < 37 -> Marital Status = Single 

Children = 5, Occupation = Clerical -> Marital Status = Single 

Age >= 65, Cars = 4 -> Marital Status = Single 

Income >= 127971, Comaute Distance = 1-2 Miles -> Marital Status = Married 
Occupation = Manual, Commute Distance = 5-10 Miles -> Marital Status = Single 
Age >= 65, Commute Distance = 1-2 Miles -> Marital Status = Married 
Comaute Distance = 10+ Miles, Income < 39050 -> Marital Status = Single 
Children = 4, Occupation = Clerical -> Marital Status = Married 

Cars = 3, Occupation = Clerical -> Marital Status = Married 

Income 2 -> Marital Status = Married 
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0 -> Marital Status = Married 
0.14 Occupation = Manual, Age = 55 - 65 -> Marital Status = Married 
0.24 Education = Graduate Degree, Children = 2 — Marital Status = Married 
0.14 Income >= 127371, Children = 5 — Marital Status = Married 
0.08 Education = Partial High School, Cars = 1 -> Marital Status = Married 
0.19 Income >= 127371, Commute Distance = 10+ Miles — Marital Status = Married 
0.17 Income = 97111 ~ 127371, Cars = 0 — Marital Status = Married 
0.22 Income >= 127371, Are = 55 - 65 -> Marital Status = Warried 
0.16 Children = 5, Age < 37 -> Marital Status = Single 
0.16 Children = 5, Occupation = Clerical — Marital Status = Single 
0.21 Age >= 65, Cars = 4 — Marital Status = Single 
0.08 Income >= 127371, Commute Distance = 1-2 Miles — Marital Status = Married 
0.21 Occupation = Manual, Commute Distance = 5-10 Miles — Marital Status = Single 
0.21 Age >= G5, Commute Distance = 1-2 Miles — Marital Status = Married 
0.16 Commute Distance = 10+ Miles, Income < 39050 — Marital Status = Single 
0.17 Children = 4, Occupation = Clerical — Marital Status = Married 
0.09 Cars = 3, Occupation = Clerical — Marital Status = Married 
0.17 Income = 97111 - 127371, Cars = 2 — Marital Status = Married 
0.22 Income >= 127371, Commute Distance = 5-10 Miles -> Marital Status = Married 
0.09 Education = Partial High School, Cars = 0 -> Marital Status = Married 
0.14 Age >= G5, Üccupation = Professional -> Marital Status = Married 
0.21 Children = 5, Occupation = Manuel — Marital Status = Single 
0.08 Cars = 4, Occupation = Skilled Wanusl — Marital Status = Married 
0.09 Age. Occupation = Manual -> Marital Status = Married 
0.24 Income >= 127371, Age € 37 -> Marital Status = Single 
0.23 Income >= 127371, Region = Europe -> Marital Status = Married 
0.21 Age >= 65, Region = Europe -> Marital Status = Married 
0.21 Age Conmate Distance = 0-1 Miles -> Marital Status = Married 
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9-17 ”复制 到 Excel 
Stepl8: 图 9-18 为 关联 规则 的 依赖 关系 网 络 图 。 
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Step19: 将 图 表 复 制 到 Excel， 如 图 9-19 所 示 。 
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显示 属性 名 称 和 值 到 


图 9-19 ”复制 到 Excel 
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聚 类 分 析 (cluster analysis) 的 观念 与 判别 分 析 非 常 相似 ， 同 样 也 是 希望 能 够 通过 对 样 
本 分 类 ， 寻 找到 多 变量 个 体 的 差异 。 但 却 有 两 点 不 同 : @ 聚 类 分 析 的 分 群 方式 并 不 需要 预 
先 指 定 最 终 的 类 别 个 数 ， 完 全 由 算法 和 数据 决定 ; @ 聚 类 分 析 属 于 一 种 非 参 数 分 析 方 法 ， 
所 以 并 没有 非常 严谨 的 数理 依据 ， 当 然 也 不 需 假 设 总 体 为 正 态 分 布 。 聚 类 分 析 常 用 于 对 数 
据 进行 约 简 或 分 类 ， 也 就 是 把 相似 的 个 体 归于 一 类 。 不 过 ， 究 竞相 似 的 标准 是 什么 ?多 么 
相似 才能 归 为 一 类 ? 聚 类 分 析 的 结果 是 否 有 意义 ? 这 些 都 是 需要 探讨 的 问题 。 

没有 一 种 最 好 的 聚 类 分 析 方 法 可 以 解决 所 有 的 问题 ， 因 此 ， 在 聚 类 分 析 时 ， 必 须 设 定 
分 析 目 标 ， 并 根据 聚 类 分 析 的 目标 选择 各 种 变量 。 为 了 避免 变量 选择 的 偏 误 ， 也 可 以 使 用 
其 他 方法 加 以 辅助 ， 如 图 形 法 等 。 通 常 ， 聚 类 分 析 可 以 分 为 以 下 两 个 基本 步骤 。 

CD 搜集 数据 (data collection )。 在 搜集 数据 时 ， 应 先 确立 分 析 目 标 ， 而 后 选择 有 代表 
性 的 数据 (因为 变量 空间 的 形态 会 影响 类 别 的 形态 ， 故 必须 小 心 选择 )， 注 意 选用 合适 的 测 
量 单位 。 必 要 的 时 候 需 要 进行 数据 变换 ， 例 如 对 数 变 换 、 平 方 根 变换 、 标 准 化 变换 、 异 常 
EIRE 

Q) 转换 成 相似 矩阵 (transformation to similary matrix)。 由 于 聚 类 分 析 是 把 相似 性 大 的 
个 体 归 为 一 群 ， 所 以 必须 逐个 计算 出 个 体 间 两 两 相似 系数 〈similation coefficient)， 并 形成 
相似 矩阵 〈similary matrix)。 然 后 按照 相似 性 程度 归并 个 体 为 一 群 。 


10.2 ”层次 聚 类 分 析 


根据 相似 性 统计 量 ， 将 样本 或 变量 进行 聚 类 的 主要 方法 有 以 下 几 种 。 

1. 系统 聚 类 法 

系统 聚 类 法 是 目前 使 用 最 多 的 一 种 聚 类 方法 ， 这 种 聚 类 方法 是 先 将 聚 类 的 样本 或 变量 
各 自 看 成 一 群 ， 然 后 确定 群 与 群 之 间 的 相似 统计 量 ， 并 选择 最 接近 的 两 群 或 若干 个 群 合 
成 一 个 新 群 ， 计 算 新 群 与 其 他 各 群 之 间 的 相似 性 统计 量 ， 青 选择 最 接近 的 两 群 或 若干 群 合 
并 成 一 个 新 群 ， 直 到 所 有 的 样本 或 变量 都 合并 成 一 群 为 止 。 

常用 的 系统 聚 类 法 是 以 距离 为 相似 统计 量 时 ， 确 定 新 群 与 其 他 各 群 间距 离 的 方法 ， 如 
最 短 距离 法 、 最 长 距离 法 、 中 间距 离 法 、 重 心 法 、 群 平均 法 、 离 差 平方 法 和 欧 氏 距离 法 等 。 
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2. 逐步 聚 类 法 

系统 聚 类 法 的 优点 是 聚 类 比较 准确 ， 缺 点 是 聚 类 的 次 数 较 多 ， 每 聚 类 一 次 只 能 减少 一 
群 或 若干 个 群 ， 每 一 次 都 需要 计算 两 两 样本 或 各 群 之 间 的 距离 或 其 他 相似 性 统计 量 ， 比 较 
麻烦 。 

而 逐步 聚 类 法 相对 简便 ， 先 确定 若干 个 样本 为 初始 凝聚 点 ， 计 算 各 样本 与 凝聚 点 的 距 
离 或 其 他 相似 性 统计 量 ， 进 行 初始 聚 类 后 ， 再 根据 初始 聚 类 计算 各 群 的 重心 作为 新 的 凝聚 
点 ， 进 行 第 二 次 聚 类 ;再 给 出 一 个 初始 的 聚 类 方案 ， 再 按照 某 种 最 优 法 则 ， 逐 步调 整 聚 类 
方案 ， 直 到 得 到 最 优 的 聚 类 方案 。 用 逐步 聚 类 法 解 题 的 关键 是 凝聚 点 的 选择 及 聚 类 结果 的 
调整 ， 常 用 的 方法 有 成 批 调整 法 、 逐 个 调整 法 及 离 差 平方 和 法 。 

3. 逐步 分 解法 

这 种 方法 是 先 将 所 有 的 个 体 看 成 一 群 ， 然 后 反复 对 现 有 的 群 进 行 分 解 ， 直 到 各 个 群 都 
不 能 分 解 为 止 。 

4. 有 序 样本 的 聚 类 

这 种 方法 适用 于 有 顺序 的 对 象 ， 聚 类 后 既 保 持 了 个 体 原 有 的 顺序 ， 又 按照 某 种 最 优 法 
则 分 割 为 若干 个 互 有 差异 的 类 别 。 
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聚 类 分 析 中 的 相似 性 ， 是 依据 样本 点 在 几何 空间 上 的 距离 来 判断 的 。 样 本 点 之 间距 离 
越 近 ， 其 相似 程度 就 越 高 ， 于 是 就 可 以 归并 成 为 同一 组 。 为 了 说 明 的 方便 起 见 ， 以 入 学 申 
请 的 Toefl 与 Gmat 成 绩 为 例 。 当 这 些 数据 转换 成 几何 空间 的 图 像 时 ， 可 以 得 到 如 图 10-1 
所 示 的 结果 。 

从 这 个 图 当中 ， 可 以 大 概 地 主观 归 类 ， 把 学 生 划 分 成 左下 角 与 右上 角 的 两 个 区 块 。 于 
EKHI #6. H4. H5 归 为 一 类 ， 其 余 的 学 生 归 为 另 一 类 。 像 这 样 的 划分 方法 ， 其 实 就 是 
利用 距离 的 观念 , 将 距离 比较 偏远 的 所 4、 打 、 类 、 奴 , 从 多 数 聚 类 的 聚 类 当中 区 分 开 来 GE: 
此 为 cluster seed 观念 )。 当 然 也 可 以 反 其 道 而 行 ， 就 是 使 用 归并 的 方法 ， 首 先 将 #3 与 #11 
这 两 组 分 数 完全 相同 的 学 生 合并 成 一 组 ， 然 后 再 考虑 如 何 去 合 并 出 下 一 个 聚 类 。 

在 数学 上 对 于 距离 这 个 观念 ， 可 以 有 下 列 几 种 不 同 的 定义 : 

1/2 


O euclidean 距离 : 4, -[( x) (s -)]^ [DG x] » 
O mahalanobis 距离 : D; =[x,-x,YS [x —x;]- 


O City block 距离 d, -|x x [ 1 X]. 
一 般 的 计算 机 软件 大 多 使 用 欧 氏 距离 ， 作 为 聚 类 分 析 “ 距 离 ” 的 计算 基础 。 欧 氏 距 离 
所 衡量 出 来 的 是 确实 的 实际 距离 , 例如 对 于 申请 人 #1 1582 而 言 , 其 欧 氏 距离 的 计算 方式 为 : 
di =| (580—530)? + (550-550)? l 250 
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Regression 


Gmat 


T T T T T T T T 
530.00 540.00 550.00 570.00 580.00 590.00 600.00 630.00 


Toefl 


| sso | sso | 570 | sso [eoo | 620 | sao | sao | seo | s70 | 70 | s20 | sso | 640 | sao 


10-1 入 学 申请 Toefl 和 Gmat 成 绩 分 布 图 

欧 氏 距离 适合 使 用 在 单位 一 致 、 不 必 加 权 的 多 变量 数据 上 。 例 如 使 用 同一 测量 尺度 的 
抽样 问卷 数据 。 不 过 对 于 具有 不 同 单位 的 数据 ， 例 如 经 济 数据 当中 的 人 口 与 所 得 ， 有 具有 
六 位 数字 以 上 的 数据 ， 与 利率 通货 膨胀 率 等 仅 具有 小 数 点 以 下 的 数据 相 结合 ， 其 欧 氏 距离 
将 会 被 离 群 值 所 影响 。 

马 氏 距离 类 似 于 欧 氏 距离 ， 但 须 经 过 协 方差 阵 的 修正 ， 即 一 般 统 计 观 念 当中 标准 化 的 
程序 。 由 于 马 氏 距离 也 同时 考虑 到 协 方差 的 大 小 ， 所 以 对 于 距离 的 衡量 ， 与 未 经 过 标准 化 
的 欧 氏 距离 作 比 较 时 ， 当 然 会 有 差异 。 正 因为 如 此 ， 利 用 马 氏 距离 或 欧 氏 距离 ， 来 做 聚 类 
分 析 的 结果 就 应 该 有 所 不 同 。 也 就 是 说 经 过 标准 化 的 马 氏 距离 ， 在 变量 之 问 相 关系 数 为 零 
时 ， 才 有 可 能 与 经 过 标准 化 后 的 欧 氏 距离 衡量 结果 一 致 。 就 整体 而 言 ， 以 上 马 氏 或 欧 氏 衡 
量 的 差异 ， 在 多 变量 的 各 个 数据 非常 相近 ， 而 协 方差 阵 的 差异 又 颇 大 时 尤其 明显 。 

绝对 值 距离 〈 也 称 为 街区 距离 ) 以 数据 差异 的 绝对 值 作 为 衡量 的 依据 。 由 于 对 数据 差 
异 没 有 经 过 开 方 与 平方 根 的 调整 ， 也 不 需 经 过 协 方差 阵 的 修正 ， 所 以 依据 绝对 值 距离 作 聚 
类 分 析 的 结果 ， 当 然 与 前 两 者 会 产生 相当 的 差异 。 它 的 优点 ， 尤 其 是 对 于 拥有 许多 小 数 点 
以 下 变量 的 数据 群 特 别 有 用 。 试 想 ， 一 个 0.05 的 数据 差异 ， 经 过 欧 氏 或 马 氏 距离 的 计算 之 
后 ， 平 方 后 的 数据 是 0.002 5， 其 分 子 项 会 变 小 。 所 以 不 论 是 欧 氏 距离 还 是 马 氏 距离 ， 都 有 
低估 比例 数据 的 倾向 。 当 然 马 氏 距 离 还 具有 方差 作 调整 的 功能 ， 尚 不 至 于 产生 偏 误 。 

如 果 仅 使 用 Toefl 与 Gmat 的 分 数 计算 欧 氏 距离 ， 以 作为 衡量 学 生 聚 类 分 析 的 依据 时 ， 
可 以 得 到 如 图 10-2 所 示 的 结果 。 

图 10-2 (a) 所 展示 聚 类 的 树 型 图 (dendrogram)， 由 下 而 上 展示 各 个 相似 的 ， 或 者 说 
距离 相近 的 个 体 ， 两 两 相 归 并 的 过 程 。 

每 次 个 体 的 合并 都 需要 付出 代价 , 即 图 10-2 (b) 纵 坐 标 所 展示 的 组 内 个 体 距 离 的 增加 ， 


Gmat 


——À538r^ 
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或 者 相似 性 的 降低 。 
距离 
41.23 
27.49 
13.74 
0.00 mr 
2 10 3 H 9 17 7 S8 12 13 15 4 5 6 14 
观测 值 
(a) 
相似 
66.67 
77.78 
88.8 
100.00 
2.109 3 11 9 1 7 8 12 I$ 15 4 S 6 14 
观测 值 
(b) 


图 10-2 ”使 用 Toefl 与 Gmat 对 于 申请 人 的 聚 类 分 析 结 果 

这 个 归并 过 程 ， 先 是 由 每 一 个 体 为 中 心 ， 再 逐步 合并 最 近 距 离 的 样本 。 此 方法 在 聚 类 
分 析 当 中 称 为 层次 聚 类 法 〈 也 叫 系 统 聚 类 法 ) 当中 的 凝聚 法 Cagglomerative method)。 在 两 
两 归并 的 过 程 当中 ， 聚 类 的 中 心 点 会 因为 不 同 的 样本 值 而 不 断 作 改变 ， 并 且 在 图 像 当 中 不 
断 地 移动 位 置 。 

若 希 望 中 心 点 不 要 因为 两 两 合并 的 过 程 而 改变 ， 必 须 使 用 不 同 于 层次 聚 类 法 的 非 层 次 
聚 类 法 Cnonhierarchical cluster procedure)。 这 样 的 方法 ， 是 在 一 开始 分 类 的 时 候 ， 就 已 经 
预 设 分 群 个 数 ， 并 根据 整体 的 样本 分 布 情况 ， 预 设 好 各 聚 类 的 中 心 点 ， 然 后 再 开始 聚 类 分 
析 。 这 种 聚 类 方法 称 为 k-mean 聚 类 。 

在 图 10-2 (b) 图 中 ， 可 以 观察 聚 类 分 析 如 何 依据 距离 ， 逐 步 合并 个 别 的 数据 而 成 为 聚 


— ga 
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类 的 整个 详细 流程 。 在 这 里 ， 发 现 最 先 被 合并 的 是 妆 与 #11。 在 图 10-2 (a) 图 样本 分 布 当 
中 ,这 两 个 数据 其 实 是 完全 重 全 的 , 理所当然 就 应 该 最 优先 合并 。 接 下 来 ， 是 #3、#11、#9， 
#1、#7、#8 与 #12、#13、#15 这 三 大 族群 的 合并 ， 这 是 因为 它们 在 图 形 上 彼此 的 距离 是 一 
样 的 。 这 样 逐 步 合 并 ， 最 后 得 到 以 #6、#14 所 形成 的 一 个 小 聚 类 ， 以 及 其 他 申请 人 的 集合 
所 形成 的 另 一 个 大 的 两 组 聚 类 。 这 就 是 聚 类 分 析 从 个 别 独立 的 n 个 样本 点 开始 ， 逐 步 合 
成 为 最 后 两 个 大 聚 类 的 过 程 。 
但 是 聚 类 分 析 是 一 种 非 参 数 方法 ， 无 法 使 用 任何 统计 方法 来 判断 最 优 的 聚 类 个 数 。 在 
实务 上 ， 可 根据 事实 的 样本 数据 、 合 并 距离 的 长 短 差 异 ， 或 者 分 析 者 的 经 验 来 作 判断 。 
当然 , 对 于 样本 的 聚 类 (cluster on observations) 也 可 以 转换 为 对 变量 的 聚 类 (cluster on 
variables)， 从 而 得 到 如 图 10-3 所 示 的 结果 。 
距离 
1.10 


0.734 


0.374 


0.00 
GPA Toefl Gmat WORK OTHER 
变量 


图 10-3 ”使 用 申请 人 数据 对 于 不 同 评 量 标准 的 聚 类 分 析 结 果 

这 时 候 ， 会 发 现 工作 经 历 (WORK ) 与 其 他 条 件 (OTHER ) 是 距离 最 近 、 最 先 受到 合 
并 的 两 个 变量 。 综 合 而 言 ， 可 以 归纳 出 WORK. OTHER 这 一 聚 类 与 GPA、Toefl、Gmat 
这 一 聚 类 间 可 能 在 数据 上 颇 有 差异 。 

当然 有 一 点 值得 注意 ，Gmat 与 Toefl 的 计 分 单位 比 其 他 计 分 分 数 要 高 出 100 倍 左 右 。 
于 是 在 几何 距离 的 图 形 衡量 上 ， 如 果 不 注 意 单位 问题 , 这 两 个 变量 便 会 显著 超越 其 他 变量 ， 
而 错误 地 合并 GPA, WORK 与 OTHER 这 三 个 变量 。 这 时 ， 应 先 将 数据 标准 化 ， 再 做 聚 类 
分 析 。 


10.4 Excel2007 聚 类 分 析 


Stepl: 数据 来 源 为 Microsoft 内 建 数据 集 ， 为 2002—2007 年 自行 车 购买 的 数据 集 ， 建 
立 聚 类 模型 。 选 择 【 数 据 挖掘 】 一 【到 类 分 析 】 命 令 ， 开 始 建立 数据 挖掘 模型 ， 弹 出 如 
图 10-4 所 示 的 【 聚 类 分 析 向 导入 门 】 窗 口 ， 然 后 单 击 【 下 一 步 】 按 钮 。 
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14| 221731 SEXO. STERRE Skilled Manual No 2 12M 
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19| 20870: Menual Yes 1 0-1] 
20 23316: ke Clerical No 2 1-2 Mj 
21 12610} “上 多 如 RA Clerical Yes 0 0-1 y 
22 | 21188 J — Clerical Yes 1 12M 
23 25940 Single Male 20000 2 Partial High Sehocl Clerical Yes 2 5-10 | 
24 25598 Merried Female 40000 0 Greduate Degree Clerical Yes 0 0-1 | 
25 | 21564 Single Female 80000 0 Bachelors Professional Yes 4 10- W| 
26 19193 Single Male 40000 2 Partial College Clerical Yes 5 1-2 v] 
27 rm me Female 80000 5 mapen rm No 3 [5-10 | 
28 27184 Sine Male 0000 2 Partial Colles. ical 
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10-4 【 聚 类 分 析 向 导入 门 】 窗 口 


Step2: 在 如 图 10-5 所 示 的 【选择 源 数据 】 窗 口 的 【 表 】 下 拉 列 表 框 中 选择 Excel 中 要 
分 析 的 数据 表 ， 单 击 【 下 一 步 】 按 钮 。 


c BED] Table Analysis Tools Sample’ !' Table?” - 


数据 区 域 (0): j= 


所 我 的 数据 区 域 包 含 页 眉 (m) 


C Analysis Services SUB (A): 


REREH: j il ii e 


查询 (g) : = 


zi 
《上 - 步 @ | [下 - 步 四 >| _ ma $ 


图 10-5 【选择 源 数据 】 窗 口 
Step3: 在 选择 数据 列 的 步骤 时 ， 选 择 进入 聚 类 的 变量 ， 由 于 ID 为 顾客 编码 ， 所 以 本 
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次 分 析 不 将 它 归 为 进入 聚 类 变量 ， 取 消 选中 ID 前 的 复 选 框 ， 接 着 单 击 【下 一 步 】 按 钮 ， 如 
图 10-6 所 示 。 

Step4: 选择 聚 类 变量 后 ， 在 【 段 数 】 栏 内 选择 聚 类 个 数 ， 可 以 使 用 软件 自动 检测 ， 或 
自行 指定 目标 值 ， 这 里 先 将 目标 值 设 为 10， 单 击 【 下 一 步 】 按 钮 ， 如 图 10-7 所 示 。 


ANSA 向 导 -loj xl 


29 
32, 
Y 


j 
C 指定 目标 值 (3) : 10 i 


输入 列 (D: 
K 


Marital Status 
Gender 
Incone 


Children 
Education 


q 


Occupation 


E Hone Ovner 回 
cir LM 
10-6 [X3:2451 AO 
AEH 向 导 loj xj 
SOSA 29 


检查 素 列 ， 以 便 对 行进 行 分 组 。 


Es 
C BIDEN) | 


指定 目标 值 (3); fing] 


输入 列 (DD: 


v Marital Status 
£. [oender 

F Inc 

v 


q q 


q 


oson] ma | 


10-7 选择 聚 类 个 数 


Steps: 完成 数据 挖掘 模型 ， 选 中 【启用 钻 取 】 复 选 框 ， 然 后 单 击 【 完 成 】 按 钮 ， 如 
图 10-8 所 示 。 

Step6: 产生 10 个 聚 类 的 聚 类 图 表 ， 若 将 图 形 复制 到 Excel 中 再 进行 操作 ， 可 以 单 击 
【复制 到 Excel】 按 钮 ， 如 图 10-9 所 示 。 
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KERIN 向 导 Ini xj 


完成 29 
2 
w 
结构 名 称 (3) : able2 结构 
工作 和 
结构 说 明 (D): | 
模型 名 称 OD: [rabie2 - RS 
模型 说 明 (0): i Table2 表 建立 的 Microso! ft Clustering 习 
选项 
F WE R) 
T BEHit8tJtR2e (U) 
Iv EREKE] 


«I 完成 (E) 取消 l, 


10-8 单 击 【完成 】 按 钮 


“Ç 浏览 = DJ x] 
分 类 关系 图 | HAAD | 分 类 特征 | 分 类 对 比 | 
@ Q u a a > 明暗 度 变 量 : [s 体 ë 避 

EE: x JES3 W [ — 


所 有 链接 


复制 到 Excel (E) 


图 10-9 聚 类 图 表 
Step7: 将 聚 类 图 表 复制 到 Excel 中 ， 如 图 10-10 所 示 。 
Step8: 选择 【分 类 剖面 图 】 选 项 卡 ， 显 示 各 群体 在 不 同 变量 下 的 差异 ， 如 图 10-11 所 
示 。 单 击 【复制 到 Excel】 按 钮 。 
Step9: 将 分 类 剖面 图 复制 到 Excel， 如 图 10-12 所 示 。 
Step10: 选择 【分 类 特征 】 选 项 卡 ， 显 示 各 聚 类 在 不 同 变量 的 水 平 下 ， 个 体 归 入 此 类 
的 概率 值 ， 如 图 10-13 所 示 。 
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M * ^ M| Introduction, Table Analysis Tools Sample 分 类 关系 图 .Porecasting ,Fil1 Froa Exanple, Source Dato, Training Date === 


mmm EEE i +. 


10-10 ”复制 到 Excel 
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10-11 【分 类 剖面 图 】 选 项 卡 
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38 
` 
` 
` 
11 Cars E 1 ` 
12 Cars à 1 ` 
13 Children > 19 ^ 
14 Children 2 u ` 
15 Children à 25 ^ 
16 Children 5 16 55 
17 Children à E 0s 
18 Children * h z on 
19 Commute Distance 0-1 Miles ss 62 38 
20 Commute Distanee 5-10 Miles ° 16 9* 
1 Commute Distance 1-2 Miles E] n 28 & 
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Incone 平均 什 B6, 140. 00 N88; 9; - 01 007725. 09 NS so RB ON. sio, 931. vie ERO. 22806, 189.13 
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特征 总 体 ( 全 部 ) 
Hone Oe 
Marital Status 
Purchased Bike 


Gender 


Rogicn 
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Purchased Bike 
Marital status 
Commute Distance 
Care 

Hone Omer 
Education 
Region 

Chiléren 
Ocecupation 

Cars 

Education 
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hae 


Æ 10-12 ”复制 到 Excel 
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(Married 
No 

Male 

North Anezica 
Fenale 

Yes 

Single 

0-1 Miles 


No 
Bachelors 
Europe 

° 

Professional 

1 

Partial College 
Skilled Manual 
EESTI 

45-5 

3515 - 56140 
s6141 - 77104 
T7105 — 149384 
52-8 


复制 到 Exce1(E) 


关闭 四) 


Stepll: 


10-13 【分 类 特征 】 选 项 卡 


将 图 表 复 制 到 Excel， 如 图 10-14 所 示 。 


Step12: 选择 【分 类 对 比 】 选 项 卡 ， 可 以 在 图 形 上 方 选择 要 比较 的 两 个 聚 类 ， 在 不 同 
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的 变量 水 平 下 ， 比 较 两 个 聚 类 的 差异 ， 如 图 10-15 所 示 。 
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Occupation lled Manue 26 % 

22 Ane -u 253 
24 Age 25% 
^ Income 35176 ~ 56140 E ss 

26 Iaccec Sel41 - 77194 E cs 
27 Ineome Tos- mossa E 25s 
Ase 2-1 E zs 
Cars as 
Children ns 
m 25 - 36 203 
Comite Distance 5-10 Miles 19% 

2 Region Pacific 19% 
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图 10-14 ”复制 到 Excel 


lal 
分 类 关系 图 | 分 类 剖面 图 | 分 类 特征 分 类 对 比 | 
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复制 到 Excel(E) 
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Step13: 将 图 表 复 制 到 Excel， 如 图 10-16 所 示 。 
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10-16 ”复制 到 Excel 


Step14: 同样 地 ， 单 击 【 数 据 挖掘 】 中 的 【高 级 】 按 钮 ， 开 始 进行 建立 数据 挖 握 模 型 。 
单 击 【 下 一 步 】 按 钮 ， 如 图 10-17 所 示 。 
taaddi SPEDSD [EEE] -INR Exc ES 
EN 4X mm RA m | ndum | -ox 
ES 4bW X 4& AnA K X K 
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— * 创建 模型 向 导入 门 = z — 
ij 
' G H I 
2? 到 网 数据 。 
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TEE AEENGARRTT ISEHISSIE EUR, EENEN fessional No 2 2-8) 
Bit, UTRA RESEND]. i je 1 
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20 p 30000 3 Partial College Clerical No 2 12M 
21 30000 3. Rachelors. Clerical Yr - 
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EI 
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Step15: 在 如 图 10-18 所 示 的 【选择 挖掘 算法 】 窗 口中 ， 在 【算法 】 下 拉 列 表 框 中 选择 
Microsoft 聚 类 分 析 ， 单 击 【下 一 步 】 按 钮 。 


lolx] 
选择 控 据 算法 


选择 控 据 算法 ， 同 时 也 可 以 设置 算法 参数 


算法 : 


crosof 


Er I2 


«x-»e|[r-»w»] m | 


£ 


10-18 【选择 挖掘 算法 】 窗 口 


Step16: 在 如 图 10-19 所 示 的 【选择 列 】 窗 口中 ,在 各 个 变量 后 方 有 一 个 下 拉 列 表 框 是 
使 用 方式 选取 ， 用 户 可 以 选取 各 个 变量 的 使 用 方式 ， 包 括 “ 输 入 ”、“ 仅 预测 ””“ 输 入 和 预 
测 ””“ 键 ”以 及 “不 使 用 ”等 。 本 次 使 用 是 否 购买 自行 车 purchased bike) 作为 预测 变 

Y， 其 余 变 量 作 为 解释 变量 建立 模型 ， 接 着 单 击 【 下 一 步 】 按 钮 。 


A 创建 控 据 模型 向 导 


图 10-19 【选择 列 】 窗 口 
Step17: 在 如 图 10-20 所 示 的 【完成 】 窗 口中 ， 单 击 【 完 成 】 按 钮 ， 软 件 进行 建立 数据 
挖掘 模型 的 操作 。 
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创建 控 据 模型 向 导 
完成 


图 10-20 【完成 】 窗 口 
Step18: 产生 如 图 10-21 所 示 的 聚 类 图 表 ， 其 余 选 项 卡 都 与 前 文 类 似 ， 不 再 袭 述 。 
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Step19: 单 击 【 数 据 挖掘 】 中 的 【准确 性 图 表 】 按 钮 ， 弹 出 如 图 10-22 所 示 的 【准确 性 
图 表 向 导入 门 】 窗 口 。 接 着 单 击 【 下 一 步 】 按 钮 。 
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ojx] 
> 准确 性 图 表 向 导入 门 


NR ERSTE ra Æ, Excel RI Analysis 
mE 查询 的 测试 数据 评 | REAMER. 如 果 模型 是 分 类 


9 AN ^ 
全 正确 地 进行 分 类 ) 相 比 的 模型 性 能 。 如 果 模 型 是 估计 模型 ， 该 向 
导 将 生成 一 个 散 点 图 ， 显 示 测 试 数据 的 模型 估计 值 和 实际 值 。 


BS NES 人 服务 呈 上 可 用 的 杠 开 列表 中 选择 到 评估 的 模型、 
NUN IET: TET Ht DUE SQMIUSHE DURS 
列 之 | 日 


CARRETA. 


A] my | 


¿l 


10-22 【准确 性 图 表 向 导入 门 】 窗 口 
Step20: 在 如 图 10-23 所 示 的 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口中 ， 选 择 进行 预测 
的 数据 列 ， 本 次 选择 自行 车 购买 图 表 ， 单 击 【下 一 步 】 按 钮 。 


A 谁 确 性 图 表 
指定 要 预测 的 列 和 要 预测 的 值 


要 预测 的 挖掘 列 (0 : 
要 预测 的 值 (也 : 
[说 明 


此 任务 用 于 分 析 模型 “Table2 - 聚 类 分 析 ” 在 对 向 
导 下 一 页 所 选 测试 数据 预测 “Purchased Bike” B 
HERI 


"Table - 聚 类 分 析 ” 在 预测 “Purchased Bike" 
时 的 准确 性 。 


此 图 表 说 明正 确 预 测 数 随 着 模型 分 析 的 事例 数 增 大 
而 增 大 。 


图 10-23 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口 


Step21: 在 如 图 10-24 所 示 的 【指定 关系 】 窗 口中 ， 选 择 变量 问 的 关系 ， 单 击 【完成 】 
按钮 。 
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指定 关系 Z 


指定 模型 列 和 输入 列 之 间 的 关系 : 

控 据 列 表 列 

Lou e DIO E El 
Cars Cars 到 
Children Children xl 
Commute Distance Commute Distance 到 
Education Education =| 
Gender Gender 到 
Home Owner Home Owner xl 
Income Income 到 
Marital Status Marital Status 到 
Occupation Occupation 到 
Purchased Bike Purchased Bike 到 
Region Region mi 


10-24 【指定 关系 】 窗 口 
Step22: 将 图 表 复 制 到 Excel 中 ， 如 图 10-25 所 示 。 


(£s DMAddins SampleData [PEt] ` Microsoft Excel Tex 
CJ Fà "A TEOR nx o MW w Uum | meon Ë — ELA! 
uaa dwa«aeü8GAUÓ6 未 2R 
RUD 清除 AER 分 m mm > m 两 mat om fy W m SE DMAddinsDB-Test m * 
[mm mm- 9E | X 计 2 8 m &- ER OCT BO X OW E S (ch) — X m- 

a 


= — À——— Á— ——— —— 
模型 “Table2 - 聚 类 分 析 “ 的 准确 性 图 表 L | 


1 
2 TAMPI Purchased Bike^- No 

3 

A Tabls2 -来 类 分 析 " 模 型 提升 113.91% 

5 

6 

1 mox 

8 

9 ww 

10 

n ns 

12 

13 

a ns 

15 

6 š DI 

gom 

18 Ë ss 一 网 所 检测 
19 NET 
M S ex Table? -BRA 
n — mnax 


10-25 ”复制 到 Excel 
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Step23: 单 击 【 数 据 挖 抉 】 中 的 【分 类 算 阵 】 按 钮 ， 弹 出 如 图 10-26 所 示 的 【分 类 算 阵 
向 导入 门 】 窗 口 ， 接 着 单 击 【 下 一 步 】 按 钮 。 
二 9lal 
> 分 类 矩阵 向 导入 门 


po Excel X. Excel 区 域 或 Analysis 

pea 查询 的 测试 数据 评估 现 有 模型 的 性 能 。 该 向 导 比较 将 模 
于 测试 数据 的 结果 和 peti a |. 该 向 导 在 完成 时 将 

和 


raea N E E = 
据 源 。 该 向 导 还 允许 您 定义 测试 数据 列 和 模型 
LE d 


注释 
必须 连接 到 SQL Server Analysis Services 数据 库 才 能 使 用 分 类 
EEDS. 


Is 


厂 不 再 显示 此 欢迎 页 (D)。 


10-26 【分 类 矩阵 向 导入 门 】 窗 口 


Step24: 在 如 图 10-27 所 示 的 【指定 要 预测 的 列 】 窗 口中 ， 选 择 预测 的 数据 列 ， 即 以 自 
行车 购买 作为 分 析 变 量 ， 单 击 【 下 一 步 】 按 钮 。 


Ini xj 
指定 要 预测 的 列 E 
要 预测 的 控 气 列 QD : z 
F 以 百分比 显示 结果 (了 ) 
F 以 计数 显示 结果 (C) 
说 明 
此 任务 用 于 分 析 模型 “Table2 - REHA” I e A B c 
向 导 下 一 页 所 选 测 试 数据 预测 “Purchased Bike" 1 Counts of correct/incorrect clas 
时 的 性 能 。 此 任务 会 生成 矩阵 报表 ， 说 明 模 型 8 
“Table2 - R34 Mfr" EHNM “Purchased 3 O(Actual) 1(Actual) 
Bike” 时 进行 的 正确 分 类 和 钱 误 分 类 10 O 6853 — 2974 
11 1 2498 6158, 
此 矩阵 说 明 “Purchased Bike” 列 的 每 个 不 重 | 12 
复 状 态 在 测试 数据 中 的 出 现 次 数 以 及 在 “Table2 - | 13 Correct 6853 — 6158_ 
RRMA” MAKAR POHNE. 14 Misdassifi 2499 ^ 2974 


IEBROIMGT EO RERNE MEE. 不 
a s s LE ceo eros [ef 


cro [Eze] ww || 


10-27 【指定 要 预测 的 列 】 窗 口 


Step25: 在 如 图 10-28 所 示 的 【指定 关系 】 窗 口中 ， 选 择 变量 问 的 关系 ， 单 击 【完成 】 
按钮 。 
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SES -joj xi 

指定 关系 E 
指定 模型 列 和 输入 列 之 间 的 关系 : 
E57] | 表 列 
区 El 
Cars Cars — — imi 
Children Children =l 
Commute Distance Commute Distance 到 
Education Education =l 
Gender Gender 到 
Hone Omer Hone Owner =l 
Income Income =l 
Marital Status Marital Status =l 
Occupation Occupation 到 
Purchased Bike Purchased Bike =! 
Region Region x 


10-28 【指定 关系 】 窗 口 


Step26: FHKE Excel 中 ， 如 图 10-29 所 示 。 


pe 


= DMAddins SampleData [收复 的 ] - Microsoft Excel -ox 
CS) sa m^ mmem m nm w Sm | mmm | @- “x 
= - 
B] 358 = p XAS ZJ] AO kK 2e 
浏览 WR 为 数据 分 佑 EX 关 Xo m MR + Xm 浏 查 管理 DMAddinsDB-Test 器 LÀ 
数据 数据 - 2E | 类 计 DU W m 级 ” m e m x 光 | 模型 docalhos) — 8 | m 
Xue Xue JR MO. musk ma Ej “m 
FERIE 
E3 -G £ x 
I A B c Di I G H I E 
1 模型 "Table2 - 聚 类 分 析 " 对 列 "Purchased Bike" 的 正确 /错误 分 类 的 计数 
2 _ 行 对 应 于 预测 值 
3 CI 
4 
5 正确 总 计 ; 60.60% 606 
6 错误 分 类 总 计 ; 39.40% 394 
T 
8 百分比 结果 
9 [= Ne 实际 jz Ves( Sz Er) = 
10 No 16.11 & 56.13 * 
11 Yes 23.89 % 43.87 % 3 
12 
13 正确 76.11% — 43.8796 
14 分 类 错误 23.89% 56.13% 
15 
16 计数 结果 
17 [z No[ Sz ke) z Yes S i) 
18 No 395 210 
19 Yes 124 211, 
20 
21 正确 395 211 
22 分 类 错误 124 270 
23 
M «» M[| Introduction, Table Analysis Tools Sample, TERMIEBEA | 332535 "Forecasting "Fill From 
— 


10-29 ”复制 到 Excel 


Step27: 单 击 【数据 挖掘 】 中 的 【利润 图 】 按 钮 ， 弹 出 如 图 10-30 所 示 的 【利润 图 向 导 
入 门 】 窗 口 ， 单 击 【 下 一 步 】 按 钮 。 
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区 Eolx 


* 利润 图 向 导入 门 


» 


它 是 什么 ? 

利润 图 向 导 人 允许 您 根据 Excel 表 、Excel 区 域 或 
Analysis Services 查询 的 测试 数据 为 现 有 分 类 模型 生成 
sen SUN CS IUNERTAN DNETUE 


Y 轴 代表 ; 
ua E oT ll 即 利 泣 
点 之 前 持续 增长 ， 但 在 该 转折 点 后 ， 随 着 
RRETOIRERGS. FERS. 


? 


Ed ee E 
BAOREN 目标 状态 和 


Dice V] E A8 GEILE FR. SE AR A Gh ct: n RP 


T 不 再 显示 此 欢迎 页 (D)。 


ESO my |, 
Æ 10-30 【利润 图 向 导入 门 】 窗 口 
Step28: 在 如 图 10-31 所 示 的 【指定 利润 图 参数 】 窗 口中 ， 选 择 要 分 析 的 变量 ， 单 击 


【下 一 步 】 按 钮 。 
-loj x] 
e 
要 预测 的 控 气 列 W: z 
TAWHA: No = 
目标 总 体 ( 卫 : [50000 
固定 成 本 (BD): [5000.00 - 
单项 成 本 (DD: [o 让 = 
单项 收入 (BRB): 15.00 
说 明 
此 任务 通过 使 用 “Table2 - 聚 类 分 析 ” 模 型 对 所 产 | 100 
生 的 利润 进 行 建 模 ， 从 而 在 类 似 于 向 导 下 一 页 所 选 测 
试 数据 的 数据 中 识别 事例 “Purchased 
Bike" = “No”. 
此 任务 假设 将 模型 预测 应 用 于 实际 数据 会 产生 
(采用 建议 值 的 ) 单 项 成 本 以 及 固定 成 本 + 


csom mm J, 


图 10-31 【指定 利润 图 参数 】 窗 口 


Step29: 在 如 图 10-32 所 示 的 【指定 关系 】 窗 口中 ， 选 择 变 量 间 的 关系 ， 单 击 【 完 成 】 
按钮 。 
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十 

ss £ 
指定 模型 列 和 输入 列 之 间 的 关系 : 
JEN E] 
=== 剧 
Cars Cars x 
Children Children zj 
Commute Distance Commute Distance 到 
Education Education 到 
Gender Gender 到 
Hone Owner Hone Owner xl 
Income Incone 到 
Marital Status [Marital Status xl 
Occupation Occupation 到 
Purchased Bike Purchased Bike x 
Region Region 到 


图 10-32 【指定 关系 】 窗 口 
Step30: 复制 利润 图 到 Excel 中 ， 如 图 10-33 所 示 。 


= DMAddins SampleData [A^] - Microsoft Excel =. 
es ;tx 
EDAX 
DMAddmDETes m 而 
(cabo — 2 m- 
zm LJ 
—rr | 
TE TE EW TE PT TE PT TD rE WE OT TE PE Em 
Yuma, - - 
yama, 
Ë moonm 
soonnon 
bcn = 
si =a £= sj 


10-33 ”复制 到 Excel 
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11.1. 基本 概念 


时 间 序 列 数据 是 非常 广泛 的 ， 例 如 网 络 用 户 经 常 按照 各 种 链接 浏览 网 站 的 点 击 顺序 记 
录 。 时 序 聚 类 算法 可 以 根据 用 户 浏览 的 网 页 顺序 对 其 进行 分 组 ， 来 分 析 网 络 用 户 的 行为 
并 确定 某 些 链接 是 否 具有 更 高 的 访问 率 。 时 序 聚 类 算法 还 可 用 于 访问 行为 预测 。 利 用 顾客 
购买 物品 的 时 间 序 列 数据 可 以 分 析 顾 客 所 购买 物品 和 时 间 的 相关 性 ， 有 相同 或 类 似 行为 的 
顾客 会 被 分 在 相同 的 聚 类 中 。 这 样 的 分 析 不 但 包含 了 购买 物品 之 间 的 相关 性 ， 也 包含 了 购 
买 物品 在 时 间 上 的 相关 性 ， 所 以 对 这 样 的 数据 做 聚 类 ， 在 应 用 上 会 更 有 弹性 和 扩充 性 。 


11.2 相关 研究 和 算法 


时 序 聚 类 算法 都 是 以 一 般 的 聚 类 算法 为 基础 , 并 充分 考虑 了 个 体 在 时 间 上 的 行为 特征 。 
这 里 列举 一 些 经 典 的 算法 ， 以 帮助 读者 获得 一 般 的 认 知 。 

BIRCH (balanced iterative reducing and clustering using hierarchies) 算法 应 用 聚 类 特征 
树 (clustering feature tree) 的 数据 结构 来 建立 聚 类 的 层次 结构 。BIRCH 可 以 动态 地 增加 个 
体 数 ， 聚 类 特征 树 用 来 存放 聚 类 的 主要 信息 ， 如 个 体 数 、 个 体 间 距离 的 线性 和 与 平方 和 。 
具体 步骤 是 先 扫描 数据 库 建 立 聚 类 特征 树 ， 再 利用 所 得 的 聚 类 特征 树 进 行 聚 类 ， 这 样 可 以 
减少 聚 类 中 VO 的 耗费 ， 但 此 算法 只 应 用 于 数值 型 数据 。 有 序 聚 类 中 ， 先 找 出 数据 里 序列 
集合 (sequence sets). 中 共同 发 生 的 频繁 模式 Cco-occurrence of frequent pattern) ， 再 利用 
jaccard coefficient 计算 数据 中 序列 对 的 相似 度 ， 最 后 使 用 凝聚 的 层次 聚 类 算法 Cagglomerative 
hierarchical clustering algorithm) 逐渐 合并 ， 求 出 所 要 的 聚 类 结果 。 但 是 这 样 的 方法 只 能 处 
理 静态 有 序 序列 ， 无 法 处 理 动态 有 序 序列 。 如 果 新 加 入 数据 时 ， 该 算法 必须 要 重新 计算 。 

对 于 含有 时 间 间 隔 的 有 序 序列 ， 这 样 的 数据 序列 可 能 包含 数值 和 类 别 两 种 不 同 的 数据 
类 型 。 一 般 采 用 三 种 不 同 的 相似 度 指标 进行 计算 : @ 事 件 种 类 相似 度 ; @ 事 件 发 生 周期 相 
似 度 ; @@ 基 于 相同 子 序列 长 度 的 相似 度 进 行 两 两 序列 的 相似 度 计 算 ， 取 这 三 种 相似 度 的 均 
值 作为 序列 的 相似 度 。 但 相似 度 不 仅 包 含 了 数据 间 的 先后 关系 ， 还 考虑 了 事件 发 生 的 时 间 
间隔 。 计 算出 两 两 之 间 的 相似 度 后 ， 以 层次 聚 类 进行 合并 ， 直 到 终止 条 件 满足 为 止 。 
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11.3 Excel2007 时 序 聚 类 


Step1: 单 击 【高 级 】 中 的 【创建 挖掘 模型 】 按 钮 ， 如 图 11-1 所 示 。 
E DMAddins —— mm Microsoft Excel z E P 


mune | s i= 


A ET] Forecasting FILI Fron Exawpie Seu 


M200 型 号 在 各 地 区 销售 下 

200107 20324. 94 20324. 94 
200108 20349. 94 23724. 93 
200100 16949. 95 16974. 95 
200110 16949. 95 20299. 94 
200111 27124. 92 23749. 93 
200112 27049. 92 47309. 86. 
200201 27124. 92 30474.91 
200202 23699. 93 30424.91 
200203 27049. 92 30499. 91 
200204 27099. 92 33874. 9 
200205 23699. 93 60924. 
200206 


ining Dara Testin 


T A58. lk 
利润 €= DVAGGInsDE-Test. 
m VocalhosD 


iie 


^ 
2 
m 
= 


š sa s) 


| &S BERENA IFIRST ENESA PIE 


© SQLServer.DMClientXLAddIn 
有 关 话 二 帮助 ， 请 法 及。 
- TEE 


ma 


图 11-1 创建 挖掘 模型 
Step2: 弹出 如 图 11-2 所 示 的 【创建 模型 向 导入 门 】 窗 口 ， 单 击 【 下 一 步 】 按 钮 。 


< 创建 控 据 模型 向 导 


> 创建 模型 向 导入 门 


它 是 什么 ? 

创建 模型 向 导 人 允许 您 根据 Excel Æ Excel 区 域 或 
Analysis Services 查询 的 现 有 数据 建立 新 的 挖掘 模 型。 
您 可 以 指定 所 使 用 的 算法 以 及 希望 预测 或 用 作 输 入 的 列 。 


它 笋 些 什么 ? 
该 向 导 允 许 您 选择 用 于 挖掘 模 型 的 算法 ， 指 定 算法 使 用 的 
参数 ， 以 及 指定 输入 数据 中 要 使 用 的 列 。 


注释 

必须 连接 到 SQL Server Analysis Services 数据 库 才能 
使 用 创建 模型 向 导 。 该 向 导 创 建 的 模型 可 以 是 持久 性 的 或 
临时 的 。 若 要 创建 临时 模型 ， 必 有 BC 


Riah 
IDEE TAPERS IBR 


EER AVEREA 


64424. 81 
60899. 82 
10174. 97 
54174. 04 
57599. 83 
57474. 83 
64349. 81 

6799. 98 
74524. 76 
T7824. 7. 
61699. 8 


lol xi 


|, 


kJ 


cse] mm | 


图 11-2 


【创建 模型 向 导入 门 】 窗 口 


MI 


|H 图 | ExcsL2007 &155 8959 


Step3: 在 如 图 11-3 所 示 的 【选择 源 数 据 】 窗 口中 , 选择 数据 表 或 者 数据 范围 , 单 击 【 下 


一 步 】 按 钮 。 
BE) 
选择 源 数据 X 
c RED: | "Forecasting’ !’ Tab1e5” - 
C 数据 区 域 (2) : — 
F 我 的 数据 区 TE 


C Analysis Services 数据 源 (如 : 


数据 源 名 称 (3) : EEC el 


358 (9): = 


ig] 


< 上- 步 @g) | [下 - 步 四 | mw Ë 


图 11-3 【选择 源 数据 】 窗 口 
Step4: 如 图 11-4 所 示 的 【选择 挖掘 算法 】 窗 口中 ， 在 【算法 】 下 拉 列 表 框 中 选择 
Microsoft 顺序 分 析 和 聚 类 分 析 ， 单 击 【 下 一 步 】 按 钮 。 


ESI ITIN lo x] 
选择 控 据 算法 


选择 控 气 算法 ， 同 时 也 可 以 设置 算法 参数 


算法 : Microsoft 顺序 分 析 和 聚 类 分 析 = 


Microsoft 


< 上 - 步 @ | [下 - 步 四 ?| se |， 


Z 


11-4 DARRERA] ED 
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Step5: 在 如 图 11-5 所 示 的 【选择 列 】 窗 口中 ， 选 择 变量 。 


扩 创建 控 握 模型 向 导 lolx] 
选择 列 


[lel 


EZ HE | 

Europe Amount 输入 到 |.| 
Northkasrica Amount SA Ni... 
Pacific Anot _ 到 .| 


图 11-5 【选择 列 】 窗 口 
Step6: 单 击 【 下 一 步 】 按 钮 ， 弹 出 如 图 11-6 所 示 的 【完成 】 窗 口 。 


= Dl xi 
u X 
结构 名 称 (3) : [Table5 结构 _1 
结构 说 明 (D): [ERRE Tate pagu 工作 簿 Forecasting 31 
模型 名 称 QU : [rabies - 顺序 分 析 和 聚 类 分 析 _1 
Table5 表 建立 的 z 
模型 说 明 (0): Microsoft Sequence Clustering 模型 El 
E 一 一 一 
F OVE (R) 
T EERSTRHTECN (T 
| M ERARE 
《< 上 一 步 (8) 完成 (E) 取消 


图 11-6 【完成 】 窗口 
Step7: 在 如 图 11-7 所 示 的 【分 类 特征 】 选 项 卡 中 显示 聚 类 特征 ， 将 聚 类 分 为 两 群 。 
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Ili [eso mEERSSTRA O 4 


= I| xl 
类 关系 图 | 分 类 副 面 图 分 类 特征 | 分 类 对 比 | 状态 转换 | 


分 类 : [总体 (全 部 ) = 


Europe Amount | 78163. 2 - 125559.4 
Northàmerica Amount — —  S39722.5 - 103446.7 
Europe Amount 30767.0 - 78163. 2 

Northinerica Amount 103446. 7 - 167170.9 
Nor thAnerica Amount 167170.9 - 386879.6 
Europe Anount 125559.4 - 288972.4 
Nor thAnerica Amount 16975.0 - 39722. 5 


Europe Amount 16950.0 - 30767.0 


复制 到 Excel (E) 关闭 (C) 


A 
11-7 【分 类 特征 】 选 项 卡 
Step8: 在 如 图 11-8 所 示 的 【分 类 关系 图 】 选 项 卡 中 ， 显 示 聚 类 特征 。 

ziBixi 
分 类 关系 图 | 分 类 一面 图 | 分 类 特征 | 分 类 对 比 | 状态 转换 | 

Q GQ a a 00 a > 明暗 度 变量 : [| u www 

EE: x E wm[ o 
所 有 链接 


最 强 链接 


复制 到 Excel(E) 


图 11-8 【分 类 关系 图 】 选 项 卡 
Step9: 在 如 图 11-9 所 示 的 【分 类 对 比 】 选 项 卡 中 ， 显 示 聚 类 2 JERK 2 的 对 比 


Do 一 
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分 析 。 


jE 
分 类 关系 图 | 分 类 到 面 图 | 分 类 特征 分 类 对 比 | 状态 转换 | 


分 类 1: [分 类 2 [7 分 类 2: HE 33€ 2 =] 
变量 值 倾向 于 分 类 2 倾向 于 dE 分 类 2 
Europe Amount 16950.0 - 39476.0 = 


16975.0 - 56046.1 NENNEN 


Northàmerica Amount 


Europe Amount 39476.0 - 295483. 7 E 
NorthAnerica Amount 56046.1 - 405993. 2 mmm 


图 11-9 【分 类 对 比 】 选 项 卡 
Step10: 单 击 【数据 挖掘 】 中 的 【准确 性 图 表 】 按 钮 ， 如 图 11-10 所 示 。 


DMAddins_SampleData [498189] - Microsoft Excel == x 
mm sm AE BERE @- ° x 
= 一 
XAS Z) EJ EJ A o Q kK 2R 
x F m 准确 性 分 类 s tU DMAddinsDB-Test 跟 W 
联 测 G mm ox 图 x w 模型 (ocaho — ! — mx 
nera ERE 模型 用 法 管理 连接 帮助 
UL ”Ga — P | 星 示 现 有 挖 所 模型 的 准确 性 图 表 L š m i 
£ le SQLServer.DMClientXLAddIn E 了 
2 a AAHS , 请 按 FL, i 
3 M200 型 号 在 记录 。 
4 
5 | Ycar/Month 回 Europe Amount EdNorthâmerica Amount  D'UUPEUUUTERENN -] 1 
6 200107 20324. 94 20324. 94 64424. 81 
7 200108 20349. 94 23724. 93 60899. 82 
$ 200109 16949. 95 16974. 95 10174. 97 
9 200110 16949. 95 20299. 94 54174. 84 
10 200111 27124. 92 23749. 93 57599. 83 
11 200112 27049. 92 47399. 86 57474. 83 
12 200201 27124. 92 30474. 91 64349. 81 
13 200202 23699. 93 30424. 91 6799. 98 
14 200203 27049. 92 30499. 91 74524. 78 
15 200204 27099. 92 33874. 9 77824. 77 
16 200205 23699. 93 60924. 82 67699. 8 
17 200206 30524. 91 43999. 87 74549. 78 
W^» nl, Table Analysis Tools Sample Forecasting, Fill From Example, Source Data, Training Data Wa. — — 
HE] 


11-10 ”准确 性 图 表 
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Stepll: 在 如 图 11-11 所 示 的 【准确 性 图 表 向 导入 门 】 窗 中 单 击 【下 一 步 】 按 钮 。 
lolx] 
> 准确 性 图 表 向 导入 门 


它 是 什么 ? 
谁 确 性 图 表 向 导 人 允许 您 根据 Excel Æ, Excel 区 域 或 Analysis 
Services 查询 的 测试 数据 评估 现 有 模型 的 性 能 。 如 果 模型 是 分 类 
模型 ， 该 向 导 将 生成 一 个 提升 图 ， 显 示 与 假设 的 理想 模型 (能 够 完 

全 正确 地 进行 分 类 ) 相 比 的 模型 性 能 。 如 果 模 型 是 估计 模型 ， 该 向 

导 将 生成 一 个 散 点 图 ， 显 示 测试 数据 的 模型 估计 值 和 实际 值 ， 


它 艇 些 什么 ? 

该 向 导 多 许 您 (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 评估 的 模型、 
模型 的 输出 列 和 测试 数据 源 。 该 向 导 还 允许 您 定义 测试 数据 列 和 模 
型 列 之 间 的 映射 。 


T 不 再 显示 此 欢迎 页 (D)。 


图 11-11 【准确 性 图 表 向 导入 门 】 窗 口 
Step12: 在 如 图 11-12 所 示 的 【选择 模型 】 窗 口中 ， 单 击 【下 一 步 】 按 钮 。 


ajx] 
选择 模型 


mu 
Table2 结构 3 Table5 -FAAARA 1 ^| 
Fue RRUME i 
Table5 结构 x 


3$ Microsoft Sequence Clustering 
Table5 - 顺序 分 析 和 聚 类 分 析 法 
说 根据 Table5 表 建 立 的 
Table5 结构 _1 明 Microsoft_Sequence_Clustering 


Pacific Amount - 


«IG || F—#( > 取消 P 


A 


11-12 【选择 模型 】 窗 口 
Step13: 在 图 11-13 所 示 的 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口中 ， 单 击 【下 一 步 】 
按钮 。 
Step14: 在 如 图 11-14 所 示 的 【选择 源 数据 】 窗 口中 ， 选 中 【 表 】 单 选 按钮 ， 并 在 下 拉 
列表 框 中 选择 数据 表 。 


i 


第 11 章 | 时 序 聚 类 | B 


二 而 
指定 要 预测 的 列 和 要 预测 的 值 


EEA W: 
EARNED: 
-说 明 
此 任务 用 于 分 析 模 型 “Table5 - 顺序 分 析 和 聚 类 分 100000 
桥 _1” 在 对 向 导 下 一 页 所 选 测试 数据 预测 “Pacific 80000 
nount” 时 的 性 能 。 此 任务 会 生成 散 点 图 ， 说 明 模 


E "Tables - 顺序 分 析 和 聚 类 分 析 _1” 在 预测 600007 
"Pacific 如 ount” 时 的 准确 性 。 


RN 


200007 
20000 40000 60000 80000 


《上 - 步 四 | [Faw] sm |, 


11-13 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口 


jay 

选择 源 数 据 

€ OD: | J Forecasting ! Tables’ =i 

个 数据 区 域 (D) : "sd 

ARREADA 

C Analysis Services 数据 源 (&): 
数据 源 名 称 (3): E 
查询 (9) : - 


11244 【选择 源 数 据 】 窗 口 


Step15: 单 击 【下 一 步 】 按 钮 ， 弹 出 如 图 11-15 所 示 的 【指定 关系 】 窗 口 。 
Step16: 显示 准确 性 图 表 ， 如 图 11-16 所 示 。 
Step17: 显示 预测 值 ， 如 图 11-17 所 示 。 


77123 


Northámerica Amount 
Pacific Amount 


图 11-15 【指定 关系 】 窗 口 


序 分 析 和 育 类 分 析 _1" 的 准确 性 图 表 


11-16 ”准确 性 图 表 
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DMAddins SampleData [收复 的 ] - Microsoft Excel PE 


64424. 81 T5906. 72 
60899. 82 75906. 72 
| 36 10174.97 75906.72 
| 37 (54174, 84 75906. 72 
57599. 83 75906. 72 
| 39 57474. 83 75906. 72 
64349. 81 75906. 72 
6799. 98 75906. 72 
T4524. T8 75906. 72 
| 48 | T7824. T7 75906.72 
67699. 8 75906. 72 
74549. 78 75906. 72 
47330.15 75906. 72 
55571.19 75906. 72 
14455. 29 75906. 72 
. 82410. 36 75906. 72 
8241. 036 75906. 72 
78222. 87 75906. 72 
2 88513.01 75906. 72 
| 103035. 3 75906. 72 
107133. 5 75906. 72 
107289. 7 75906. 72 
_ 111209. 3 75906. 72 
105062 75906. 72 
| 124579. 5 75906. 72 
3 | 16139. 93 75906. 72 
106169. 5 T5906. 72 
L 113029. 5 75906. 72 
|| 115374. 5 75906. 72 
11524. 95 75906. 72 


w + y "|. Table Analysis Tools Sample, 
ma ni 


orecasting | 准确 性 图 表 Fill From Example, Source Data, Tri] 


图 11-17 预测 值 


=s 
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12.1 基本 概念 


当 某 种 现象 的 变化 及 其 分 布 特性 清楚 后 ， 需 要 分 析 变 化 发 生 的 原因 及 其 影响 因素 。 在 
研究 变量 与 Y 间 相互 关系 时 ， 如 果 变 量 站 可 以 自由 变动 ， 则 可 用 各 种 试验 设计 探讨 XY 对 
了 的 影响 ; 但 如 果 关 不 能 自由 变动 ， 可 用 事先 求 得 的 与 了 间 的 关系 来 推测 了 值 。 

相关 分 析 法 和 回归 分 析 方 法 一 直 都 是 生物 统计 学 的 重要 方法 。 早 在 1885 年 ， 高 登 
(F. Galton) f regression towards mediocrity in hereditary stature 一 文中 发 表 根 据 父母 身体 特 
性 预测 子女 身体 特性 的 研究 结果 。 他 发 现 “ 身 高 偏 高 的 父母 ， 其 子女 平均 身高 要 低 于 他 们 
父母 的 平均 身高 ， 相反 地 ， 身 高 偏 矮 的 父母 ， 其 子女 平均 身高 却 要 高 于 他 们 父母 的 平均 身 
高 ”。 他 用 regression 来 表示 这 种 效应 。 因 此 , 将 用 一 个 变量 去 预测 另 一 变量 的 方法 称 为 “ 回 
归 分 析 ”。“ 回 归 ” 一 词 本 有 其 特殊 意义 ， 现 已 将 其 一 般 化 ， 用 以 描述 两 个 或 两 个 以 上 变量 
间 的 关系 。 所 以 ， 回 归 分 析 是 用 以 一 个 或 多 个 自 变 量 来 描述 、 预 测 或 控制 某 一 特定 因 变 量 。 

对 于 比较 简单 的 变量 间 的 关系 ， 有 时 可 以 任 着 过 去 的 经 验 与 直觉 来 判断 ， 但 是 对 于 那 
些 比较 复杂 或 需要 精确 结果 的 ， 就 需要 依赖 客观 的 统计 方法 来 了 解 它们 之 间 的 关系 了 。 在 


统计 学 上 用 来 研究 这 些 关 系 的 统计 方法 ， 除 了 方差 分 析 


还 有 回归 分 析 、 相 关 分 析 等 。 


回归 分 析 主 要 用 于 了 解 自 变量 与 因 变 量 间 的 数量 关 
模型 诊断 


Ro 主要 目的 是 了 解 自 变量 与 因 变 量 关 系 的 方向 及 强度 ， 
用 自 变 量 建立 模型 对 因 变量 做 预测 ， 此 外 还 可 以 用 于 
分 类 。 
回归 分 析 按 照 自 变量 的 个 数 可 以 分 为 简单 回归 分 析 
和 多 元 回归 分 析 。 回 归 分 析 中 变量 的 选择 原则 是 依 相关 
理论 或 已 有 的 研究 经 验 和 判断 。 
回归 分 析 步 又 : 


@ 由 分 布 图 的 情况 或 专门 学 科 的 知识 ， 设 定数 学 
模型 。 
@ 用 最 小 平方 法 推导 正规 方程 。 
© 解 出 回归 方程 。 


@ 用 图 示 法 验证 所 拟 合 的 回归 预测 值 与 观测 值 的 
分 布 是 否 一 致 ， 来 确定 模型 是 否 合理 ， 如 图 12-1 所 示 。 图 12-1 回归 分 析 步骤 
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12.2 简单 回归 分 析 


1. 模型 假设 和 估计 
假设 简单 回归 模型 可 用 下 式 表示 : 
y, = By t+Ax,+8,,i=1,--.,n 

其 中 : yj 为 因 变 量 , x 为 自 变 量 ，8 ARA, A.A ABRE Hop B, 为 截 距 项 ， 忆 为 
模型 的 斜率 。 

误差 项 代表 可 能 的 偏差 。 回 归 模型 假设 的 基本 思想 是 误差 项 来 自 某 一 个 正 态 分 布 
N(0,0?). 

回归 模型 基本 假设 为 : 

@ 正 态 分 布 , 对 任 一 固定 x (ü. Y 是 一 个 随机 变量 ， 有 确定 的 概率 分 布 Y|X 一 
Nu Gy) ° 

@ 独立 性 : y 之 间 相 互 独立 。 

@ wj 是 x 的 线性 函数 ， 即 ,= po + Ax 

@ 方差 齐 次 性 (homoscedasticity): 对 于 任意 的 x， fio =o, 

简单 线性 回归 分 析 中 最 重要 的 是 估计 回归 系数 ， 估 计 的 方法 通常 采用 普通 最 小 平方 法 
(ordinal least squares method，OLS )， 也 就 是 使 散 点 图 上 的 所 有 观测 值 到 回归 直线 距离 的 
平方 和 最 小 。 对 任 一 给 定 的 自 变量 值 :而 言 ， 其 相应 的 估计 值 表 示 为 六 = 房 + 房 5 。 利 用 最 
小 平方 法 所 得 的 房 与 房 值 ， 将 使 得 因 变 量 的 观测 值 y 与 因 变 量 的 估计 值 六 之 间 的 离 差 平 
方 和 为 最 小 Bl min > (y, — $,)° 。 

普通 最 小 平方 法 的 推导 : 

SSE-96,- 5) - 310; - À, -Bx) 
i=l i=l 


分 别 对 扁 、 记 微分 ， 并 令 其 为 0: 


ƏSSE  OSSE y 
a ` 
2y=nĝ +A > x 
= E 
EAZ AzA Uem 


=7127 
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9, -D0 -7 —x)(y, 7. Drv- n» 2s 


SD se 


n 
B, -y-Bx 

最 小 平方 法 可 提供 描述 自 变量 与 因 变 量 关 系 的 最 佳 近似 直线 。 由 最 小 平方 法 建立 的 直 
线 方程 称 为 估计 回归 线 或 估计 回归 方程 ,并 以 = 扁 + 记 表示 ，D; 是 y 的 预测 值 或 估计 
值 。 两 者 之 差 反 映 了 估计 的 误差 ， 第 i 个 观察 值 之 差 为 。=y -》， 此 差 值 称 为 第 i 个 观察 
值 的 残 差 (residual)。 

(D X o? fi flit 

0? 是 误差 项 e 的 方差 ， 通 常 以 误差 平方 和 SSE € 的 估计 值 。 以 人 7 估计 0o?: 

ge e -$) = -ÁSD 
其 中 : 


; 20x n6) —n( sanel -n( x) 


n=l n-l 


(2) 对 所 的 统计 推断 ，Po A TB IHE 2 B: 


在 线性 回归 模型 中 有 : 
o? 
E27 


ú tn 


检验 统计 量 为 : 


yix 
S,Nn-1 
如 果 |Z|> PL 则 拒绝 Hoo 
其 中 记 的 100x(1-@)% 置 信 区 间 上 下 界 为 BB tt, > yy uA s 
n-1 
(3) WA RHEN: Ho: A = By H.: A 2 B. 


"Ë x 
o ~N] Bo» a aT N 
^ Ç š [ye J 


检验 统计 量 为 : 
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m P ut LA 
= === i box 
1 £ 


S +— 
yn (n-Ds 
其 中 房 的 100x(1-a)% 署 信 区 间 为 : 


A h X. ` ë Ë x. 
Fab S pusa +f Sault 
E n-2,I-24" yix n (n- DS? P, n-2,1-24" yk n (n— ns? | 


(4) 回归 系数 的 意义 
回归 系数 表示 当 自 变量 发 生 一 个 单位 的 变化 时 ， 因 变量 了 相应 发 生 的 平均 变化 量 。 


假设 变量 了 Y=“ 销售 量 ”和 变量 =“ 广 告 投资 ”的 回归 方程 为 了 =120+0.24X 。 其 意思 是 : 
平均 来 说 ， 如 果 “ 广 告 投资 "XX 增 加 100 万 元 ， 则 “销售 量 ” 了 将 增加 约 24 71776. ĝ,=120 
表示 当 广 告 投资 X=0 时 ， 平 均 的 销售 量 ， 房 =0.24 表示 等 于 针 增 加 一 个 单位 (1 万 元 ) 时 
7 平均 的 增加 量 。 


2. 回归 模型 拟 合 优 度 检验 
首先 介绍 用 来 衡量 估计 回归 方程 拟 合 优 度 〈goodness of fit) 的 判定 系数 (coefficient of 


determination )。 用 普通 最 小 平方 法 可 求 出 使 因 变 量 的 观测 值 y 与 其 预测 值 p, 之 间 的 离 差 平 
方 和 最 小 的 房 与 房 。 因 此 普通 最 小 平方 法 所 处 理 的 平方 和 ， 常 被 称 为 误差 平方 和 或 残 差 平 


方 和 ， 


以 SSE 表示 ， 是 由 未 知 原因 所 引起 的 变异 。 
误差 平方 和 SSE= G, - $.) 
与 平均 数 有 关 的 平方 和 〈 记 为 SST)， 也 就 是 总 方差 ， 定 义 如 下 : 
总 平方 和 SST= 0-7) 
为 衡量 估计 回归 直线 的 预测 值 了 与 了 的 差异 , 需要 计算 回归 平方 和 (sum of squares due 


to regression， 记 做 SSR)， 它 表示 由 自 变量 XX 回归 引起 的 方差 ， 即 由 回归 方程 解释 的 方差 。 


回 


归 平 方 和 定义 如 下 : 


回归 平方 和 ，SSR =》 ($ - 了) 
SSE, SST 与 SSR 的 关系 为 SST= SSR+ SSE. 
接 下 来 探讨 SSE、SST 与 SSR 如 何 测 量 回归 关系 的 拟 合 优 度 。 如 果 各 观测 值 均 落 在 最 


小 平方 线 上 ， 这 是 最 佳 拟 合 的 情况 ， 直 线 通 过 每 一 点 ， 所 以 SSE=0。 因 此 ， 在 完全 拟 合 情 
况 下 ，SSR 与 SST 必然 相等 ， 即 SSR/SST=1。 从 另 一 方面 来 看 ， 拟 合 优 度 不 好 则 导致 较 大 
的 SSE。 然 而 ， 由 于 SST+SSR=SSE， 所 以 当 SSR=0 时 ，SSE 为 最 大 〈 拟 合 优 度 最 差 )。 在 
这 种 情况 下 ， 估 计 回 归 方 程 无 法 预测 y。 因 此 ， 拟 合 效 果 最 差 的 回归 模型 将 使 SSR/SST=0。 


用 SSR/SST 评估 回归 关系 的 拟 合 优 度 ， 判 定 系 数 介 于 0 一 1 之 间 ， 记 做 。 其 值 越 接 


近 1， 表 示 拟 合 优 度 越 好 。 


判定 系数 : ?= 一 一 =1- 一 一 


— 7129) 
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SSR 为 可 由 回归 方程 解释 的 SST 部 分 。 可 将 判定 系数 理解 为 回归 模型 对 SST 的 解释 程 
度 。 当 以 百分比 表示 时 ， 判 定 系数 可 解释 为 在 SST 中 ， 回 归 方 程 可 以 解释 的 百分比 ， 即 自 
变量 艺 解 释 了 因 变 量变 动 的 百分数 。 较 大 的 过 值 仅 表示 该 回归 模型 提供 较 好 的 拟 合 ， 但 不 
能 仅 依 过 的 大 小 来 判断 天 与 了 之 间 的 关系 是 否 为 统计 显著 。 若 要 下 这 类 结论 ， 必 须 考虑 样 
本 大 小 与 最 小 平方 估计 的 渐进 抽样 分 布 的 性 质 。 

对 社会 科学 数据 而 言 ， 即 使 产 低 如 0.25， 通 常 可 视 为 有 用 的 。 对 自然 医疗 科学 数据 而 
言 ， 经 常 发 现 高 于 0.60 的 记 值 。 事 实 上 ， 有 了 时 更 能 见 到 户 值 高 于 0.90 的 情形 。 


12.3 多 元 回归 分 析 


多 元 回归 是 简单 线性 回归 的 推广 ,模型 包含 一 个 因 变量 和 KK 三 2) 个 自 变量 。 例 如 ， 
在 研究 “销售 量 Y” 的 变化 时 ， 只 考虑 “广告 投资 多 ”可 能 不 够 ， 可 能 还 要 考虑 “销售 人 
员 的 数量 和 %”“ 特 定 产品 的 价格 万 六 “个 人 可 支配 所 得 各” 等 其 他 变量 ， 此 时 采用 多 元 回 
归 分 析 是 比较 妥当 的 。 需 要 注意 的 是 ， 如 果 因 变量 是 定性 变量 ， 例 如 因 变量 “购买 意向 y” 
为 二 分 变量 时 ， 也 就 是 了 = 1 表示 肯定 购买 ，Y= 0 表示 不 一 定购 买 ， 则 要 采取 Logistic 回 
归 分 析 。 

多 元 回归 分 析 可 以 达到 以 下 目的 : 

@ 了 解 因 变量 和 自 变量 之 间 的 关系 是 否 存在 ， 以 及 这 种 关系 的 强度 。 也 就 是 以 自 变 量 
所 解释 的 因 变 量 的 变异 部 分 是 否 显著 ， 且 因 变 量变 异 中 有 多 大 部 分 可 以 由 自 变量 来 解释 。 

© 估计 回归 方程 , 求 在 自 变量 已 知 的 情况 下 因 变 量 的 理论 值 或 预测 值 , 达到 预测 目的 。 

@ 评价 特定 自 变量 对 因 变量 的 贡献 ， 也 就 是 在 控制 其 他 自 变 量 不 变 的 情况 下 , 该 自 变 
量 的 变化 所 导致 的 因 变量 变化 情况 。 

@ 比较 各 自 变量 在 拟 合 的 回归 方程 中 相对 作用 的 大 小 , 寻找 最 重要 的 和 比较 重要 的 自 

多 元 回归 模型 ， 其 公式 如 下 : 

Y = B, +AX,+AB,X,+ABX,+---+B, X, +£ 
该 模型 可 以 用 下 面 的 回归 方程 来 估计 : 
Y = Ê, +AX +Ê X, +Ê; X, ++ B. X, 

其 中 代表 截 距 ，B 代表 回归 系数 也 就 是 偏 回 归 系 数 )， 一 般 都 是 通过 常用 的 统计 软件 
来 估计 ， 统 计 软 件 还 将 给 出 标准 回归 系数 和 对 应 的 标准 误差 ， 这 些 统计 量 与 简单 回归 中 给 
出 的 相应 的 统计 量 的 意义 是 一 致 的 。 

1. 回归 效果 的 评估 

对 所 有 自 变量 与 因 变量 之 间 的 直线 回归 关系 的 拟 合 程度 ， 可 以 用 类 似 于 简单 回归 中 决 
定 系数 的 统计 量 R 来 度量 ， 其 公式 如 下 : 
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gar aa SSE 
SST SST 
SST (了 的 总 变异 ) = SSR《〈 可 由 回归 方程 解释 的 变异 ) + SSE 〈 不 可 解释 的 变异 ) 


其 中 


SST - Y (y -Y? ，SSR=》 (7-7), ssE=5 (v-vy 
称 RO y des £ Beka 12: 3 R 的 平方 。R 和 尺 具 有 以 下 的 意义 和 性 质 : 
QD R 也 可 以 看 成 是 实际 值 了 和 预测 值 了 之 间 的 简单 相关 系数 ro 
O 决定 系数 RR 不 会 小 于 因 变 量 Y 和 任 一 个 自 变量 六 之 间 的 最 大 的 决定 系数 2, HU 
Rz max [r^ 2n] ， 其 中 n A Y 5 X BA E # 3. 
© 自 变 量 Xy, X», …, 也 之 间 相 互相 关 程 度 越 低 ，R? 的 值 就 可 能 越 高 。 
© 如 果 自 变量 Xy Xo, …, 所 之 间 是 统计 上 独立 的 ， 则 RR 就 等 于 所 有 自 变 量 与 因 变 量 
的 决定 系数 之 和 ， 即 R2 =r. 
当 回 归 方 程 中 自 变量 的 个 数 持续 增加 时 ， 尼 值 不 会 减 小 ; 不 过 , 在 前 几 个 自 变量 之 后 ， 
再 增加 自 变量 也 不 会 对 尼 有 多 大 的 贡献 。 因 此 ， 不 难 发 现 当 尼 很 大 时 ， 应 考虑 是 否 是 增 
加 变量 导致 的 。 为 避免 此 问题 产生 ， 应 加 以 调整 ， 即 按照 自 变量 的 个 数 和 样本 量 对 R 进行 
如 下 的 调整 : 
2 _ | SSE-D ql k(— R3) 
<< ' SsT/(n-) —  (n-k-1) 
此 时 称 Roy 为 调整 决定 系数 (adjusted coefficient of determination). 


2. 回归 模型 的 假设 检验 
回归 模型 的 显著 性 检验 包括 : @ 对 整个 回归 方程 的 显著 性 检验 ，@ 对 回归 系数 的 显 
对 整个 回归 方程 的 显著 性 检验 的 假设 为 “总 体 的 决定 系数 p? 为 零 ” 这 个 零 假 设 等 价 
于 “所 有 的 总 体 回 归 系 数 都 为 零 ” BH: 
H: p-0 或 Hs ===, =0 
Für R, MARRIN F IK, ARN: 
200 SSR/k __ RUk 
"SSE/n-k-1) (-R2))/(n-k-1) 
自由 度 = (k.n-k-1) 
F 比值 的 意义 实际 上 是 “由 回归 解释 的 方差 ”与 “不 能 解释 的 方差 ”之 比 ， 由 总 变异 
的 分 解 式 可 以 看 到 回归 方差 的 显著 性 检验 与 方差 分 析 的 概念 是 类 似 的 。 因 此 也 称 上 述 检 验 
过 程 为 应 用 于 回归 的 方差 分 析 ， 如 表 12-1 所 示 。 
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表 12-1 多 元 回归 的 ANOVA 


变异 的 来 源 F 比值 
MSR 
可 以 解释 (回归 )》 Es—— 
MSE 


不 可 解释 RÆ) 


总 计 


对 某 个 回归 系数 户 的 显著 性 检验 的 零 假设 为 : 


H;:B,=0 
检验 的 最 终 统 计量 仍 为 了 统计 量 : 
L- B, PT 
SE(B.) 


3. 回归 变量 的 选择 

在 建立 回归 方程 时 ， 可 能 会 涉及 很 多 自 变量 。 然 而 有 些 变 量 可 能 并 不 重要 ， 太 多 的 变 
量 会 使 模型 变 得 过 于 复杂 。 因 此 ， 需 要 对 大 量 的 自 变量 进行 必要 的 筛选 ， 用 尽 可 能 少 的 自 
变量 去 解释 因 变量 中 最 大 比例 的 变异 。 选 择 回归 变量 的 常用 方法 主要 有 以 下 几 种 。 

@ 所 有 可 能 回归 法 Call possible regression procedure): 将 所 有 可 能 的 自 变量 全 部 加 入 ， 
进行 回归 分 析 。 

@ 向 前 选择 法 〈forward selection): 将 自 变量 逐个 加 入 回归 模型 ， 检 验 其 是 否 满足 某 
个 事先 规定 的 标准 ， 如 果 满 足 该 标准 ， 则 将 此 变量 加 入 回归 模型 ， 否 则 就 不 保留 。 例 如 ， 
根据 待 加 入 变量 对 可 解释 的 方差 贡献 的 大 小 ， 可 以 规定 “重要 的 ”变量 加 入 方程 所 需 的 最 
小 下 比值 (如 F-3.84) 或 最 大 概率 值 P (如 P=0.05)。 

@ 向 后 淘汰 法 (backward elimination): 先 将 全 部 自 变量 都 加 入 回归 模型 中 ， 然 后 逐 
个 检验 其 是 否 满足 某 个 事先 规定 的 剔除 比值 。 如 果 满 足 该 标准 ， 则 将 此 变量 从 回归 模型 中 
剔除 ， 和 否则 就 保留 。 例 如 ， 根 据 变 量 对 可 解释 的 方差 贡献 的 大 小 ， 可 以 规定 将 “不 重要 的 ” 
变量 从 方程 中 剔除 的 环比 值 的 上 限 〈 如 F=2.71) 或 概率 值 尸 的 下 限 〈 如 P=0.10)。 

@ 逐步 回归 法 (stepwise regression): 是 前 两 种 方法 的 结合 ， 即 根据 某 些 事先 规定 的 
标准 ， 逐 个 加 入 “重要 的 ”变量 ， 又 随时 剔除 “不 重要 的 ”变量 ， 直 至 既 无 不 显著 变量 
归 方 程 中 剔除 ， 又 无 显著 变量 加 入 回归 方程 为 止 。 

注意 ， 按 照 上 述 方法 得 到 的 回归 方程 的 决定 系数 尼 不 一 定 是 最 大 的 ， 即 回归 效果 不 一 
定 是 最 佳 的 。 由 于 自 变 量 之 间 可 能 相关 〈 即 共 线性 )， 因 此 重要 的 变量 有 可 能 被 剔除 ， 不 重 
要 的 变量 也 有 可 能 被 加 入 。 因 此 ， 在 变量 选择 的 问题 上 要 持 慎重 的 态度 ， 要 结合 相关 的 专 
业 知 识 ， 考 虑 各 种 可 能 ， 必 要 时 还 可 将 某 些 虽然 已 被 剔除 ， 但 却 “ 不 可 缺少 的 ”变量 强行 
加 入 方程 。 
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12.4 Excel2007 线性 回归 


Microsoft 线性 回 


归 算 法 是 Microsoft 决策 树 算法 的 特例 , 即 禁 止 数据 分 割 的 决策 树 ( 整 


归公 式 是 在 单一 根 节点 中 建立 )， 但 该 算法 支持 连续 属性 的 预测 。 


12-2 ”创建 挖掘 模型 
Step2: 弹出 如 图 12-3 所 示 的 【创建 模型 向 导入 门 】 窗 口 ， 单 击 【下 一 步 】 按 钮 。 


A 创建 控 据 模型 向 导 


* 创建 模型 向 导入 门 


Cta? 
创建 模型 句 导 人 允许 您 根据 Excel #. Excel 区 
Analysis Services 查询 的 : h 
BAREA ANNELA A SB SUME FI FE 6. R65]. 
cd Que MeNSR E 
EST EERUN. 
BE a 

E 
建 临 时 按 气 模型。 请 与 您 的 | 


Services 数据 库 才能 
可 


Er o À T 


T 不 再 显示 此 欢迎 而 Q). 


-loj x 


EFW 取消 


12-3 


【创建 模型 向 导入 门 】 窗 口 


Step3: 这 里 选择 另外 一 种 不 同 的 数据 源 一 一 基于 SQL 2005 的 Analysis Services 中 的 
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数据 源 。 选 中 【Analysis Services 数据 源 】 单 选 按钮 ， 单 击 【 下 一 步 】 按 钮 ， 如 图 12-4 所 示 。 


ET = 
选择 源 数 据 
CQ: [Forecaste T Tabios 
数据 区 域 (D): [ [s 


C Analysis Services SERW: 
数据 源 名 称 (3: [ <| 
E 


查询 (9) : 


| 请 输入 有 效 的 查询 字符 串 。 


calE m | 


A 


图 12-4 选择 源 数据 
Step4: 可 在 【服务 器 数据 源 】 下 拉 列 表 框 中 选择 数据 库 中 已 存在 的 数据 ， 单 击 红色 部 
分 可 新 增 数据 来 源 ， 如 图 12-5 所 示 。 


EE 
选择 hnalysis Services 服务 器 数据 源 ， 并 选取 希望 包含 在 查询 中 的 表 / 列 。 


服务 器 数据 源 (S): ec x| 
可 用 表 和 列 (a) : 查询 中 的 列 (O): 

= C] ehi6-8 (dbo) E| Ji 

田 国 sysallocunits (sys) xi 


由 -图 sysbinobjs (sys) 

田 国 sysbinsubobjs (sys) 
田 国 syscerts (sys) 

由 -图 sysclsobjs (sys) 

由 - 国 syscolpars (sys) 

田 国 sysconvgroup (sys) 


由 -图 sysdbfiles (sys) N 
Am. rect 
, 


l 
3 E 
x5 
my 


由 - 国 sysasynkeys (sys) mlx2 
图 
«| 


12-5 选择 服务 器 数据 源 


Step5: 在 【服务 器 名 称 】 文 本 框 中 输入 “localhost”， 在 【目录 名 称 】 下 拉 列 表 框 中 选 
择 DM_demo， 如 图 12-6 所 示 。 测 试 连接 无 误 后 单 击 【 确 定 】 按 钮 。 


13477. 


$123 gm M EU] 


新 建 Analysis Services 数据 源 = [= xl 


创建 新 的 hnalysis Services 服务 器 数据 源 。 


数据 源 名 称 (D) : Fes 
访问 接口 (B): [SAL Server Native Client 
服务 器 名 称 (3) : localhost m 


登录 凭据 : 
C 使 用 Windows 身份 验证 (WD 
个 使 用 SQL Server 身份 验证 (9) 


用 户 名 (加: [ 


WEB) 


EREMO: 


测试 连接 (T) 


12-6 新 建 Analysis services 数据 源 
Step6: 将 所 需 的 数据 表 移 到 【查询 中 的 列 】 框 内 ， 如 图 12-7 所 示 。 
ziii 


选择 Analysis Services 服务 器 数据 源 ， 并 选取 希望 包含 在 查询 中 的 表 / 列 。 


服务 器 娄 据 源 (3): Ee El s| x| 


可 用 表 和 列 (4) : 查询 中 的 列 (c) : 


田 国 casel$ (dbo) zl 
+ EË] case2$ (dbo) 习 厂 告 费用 _( 十 万 元 ) 
* 口 case3$ (dbo) 习 销 售 收入 _( 十 万 元 ) 
9-0] ch16-6 (dbo) 
+ E] sysallocunits (sys) 
由 - 国 sysasynkeys (sys) 
+ Ë] sysbinobjs (sys) 
E] sysbinsubobjs (sys) 
*-L] syscerts (sys) 
a sysclsobjs (sys) 
Pq: n Fais 


图 12-7 ”编辑 数据 源 
Step7: 在 如 图 12-8 所 示 的 【选择 源 数据 】 窗 口中 ， 单 击 【下 一 步 】 按 钮 。 


771135 


Ti [Eco mEEERSSTB — —s 


AURRERA 向 导 
选择 源 数 据 


-iBixi 


CET: 


C 数据 区 域 (D): 


G Analysis Services SUB (A): 
数据 源 名 称 (3): Fe C 
358 (9): 


ger Bi, T 告 费 用 _ (十 万 元 ) SENA C E] 
FRON "abo". “case3$” 


El 
《上 一 步 (8) | F-# W > 取消 p 
128 【选择 源 数 据 】 窗 口 
Step8: 在 如 图 12-9 所 示 的 【选择 挖掘 算法 】 窗 口中 ， 单 击 【 下 一 步 】 按 钮 


A 创建 控 据 模型 向 导 


-Joj xj 
选择 控 据 算法 X 
选择 控 所 算法， 同时 也 可 以 设置 算法 参数 
算法 : Microsoft 线性 回归 =] 


< 上 一 步 @) | | 下 一 步 (0) > 取消 E 


12-90 【选择 挖掘 算法 】 窗 口 


Step9: 将 自 变 量 设 定 为 “输入 ”， 预 测 变量 设 定 为 “ 仅 预 测 ”， 把 数据 中 的 序号 设 定 为 
key， 而 不 使 用 的 变量 则 设 为 “不 使 用 ”， 完 成 后 单 击 【 下 一 步 】 按 钮 ， 如 图 12-10 所 示 。 

Step10: 选中 【浏览 模型 】 复 选 框 ， 选 中 【启用 钻 取 】 复 选 框 ， 单 击 【 完 成 】 按 钮 ， 
如 图 12-11 所 示 。 当 然 也 可 以 更 改 结构 名 称 及 模型 名 称 。 
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扩 创建 挖掘 模型 向 导 


-loj xj 
选择 列 X 
m |a 
E: | 用 法 
厂 告 费 用 _ 十 万 元 _ 输入 到 
销售 收入 _ 十 万 元 _ mmm 司 . 
< 上 一 步 @) | [TFW > 取消 
E24 — m | 
12-10 【选择 列 】 窗 口 
K 创建 控 握 模型 向 导 - [Bl x] 
i X 
结构 名 称 (3): fer £88 2 
CET lec IRR BSEGEURISIERG E 
模型 名 称 QD: fee - EHI 2 
1 E 露 数据 源 建 立 | z 
模型 说 明 (0) : EE ñ 
选项 
[v RRN (E 


T- SEFHIGHT IM (U) 
F ERRE) 


cso me] w | 


12-M 【完成 】 窗 口 


Stepll: 选择 【依赖 关系 网 络 】 选 项 卡 ， 若 结果 有 数 个 变量 与 预测 变量 存在 关系 ， 则 
可 调整 【所 有 链接 】 滑 块 ， 看 出 其 中 关联 的 强 弱 程 度 ， 如 图 12-12 所 示 。 


Step12: 单 击 【数据 挖掘 】 中 的 【准确 性 图 表 】 按 钮 ， 在 如 图 12-13 所 示 的 【准确 性 图 
表 向 导入 门 】 窗 口中 单 击 【 下 一 步 】 按 钮 。 


—u 


12412 【依赖 关系 网 络 】 选 项 卡 


oor 准确 性 图 表 向 导入 门 


k me 
厂 环 再 显示 下 欢迎 页 (DD). | I 


图 12-13 【准确 性 图 表 向 导入 门 】 窗 口 
Step13: 在 模型 列表 中 选择 “reg- 线 性 回归 2”， 单 击 【 下 一 步 】 按 钮 ， 如 图 12-14 
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所 示 。 


选择 模型 


Table2 结构 称 
Table2 - 逻辑 回归 $ Microsoft Linear Regression 
Table2 结构 _1 法 
3 Cars. 说 根据 reg 服务 器 数据 源 建立 的 
明 Microsoft_Linear_Regression 模 一 
Table5 结构 型 
Table5 - 时 序 输 
| = 
< 上 一 步 下 一 步 @) > 取消 
<10] mnm, 
12-414 【选择 模型 】 窗 口 


Step14: 在 如 图 12-15 所 示 的 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 


中 , 单 击 【下 一 步 】 


Bil. 


指定 要 预测 的 列 和 要 预测 的 值 7 
要 预测 的 控 据 列 Q0 : 
要 预测 的 值 C9) : 
-说 明 
此 任务 用 于 分 析 模 型 “reg - 线性 回归 _2” 在 对 向 100000] 
导 下 一 页 所 选 测试 数据 预测 “销售 收入 _ 十 万 元 ” 80000 —; 
时 的 性 能 。 此 任务 会 生成 散 点 图 ， 说 明 模型 “zee ~ FH 
线性 回归 _2” 在 预测 “销售 收入 _ 十 万 元 ”时 的 准 60000 i 
mi. . t 
400001 
200007 


20000 40000 60000 80000 


csom m |, 


图 12-15 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口 


Step15: 选中 【Analysis Services 数据 源 】 单 选 按钮 ， 单 击 【 下 一 步 】 按钮 ， 如 图 12-16 


所 示 。 
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-loj xl 
选择 源 数 据 Z 
CD: E 
C 数据 区 域 (D) : 国 
c länaiysis Services SUERA: ] 
数据 源 名 称 (3): fee pe 
358 (9): SELECT 月份， 小 告 费 用 _( 十 万 元 ) “销售 收入 _( 十 万 元 ) E 


FROM “dbo “case3$ 


El 
CE) my | 
图 12-16 选择 源 数 据 
Step16: 在 如 图 12-17 所 示 的 【指定 关系 】 窗 口中 ， 单 击 【 完 成 】 按 钮 。 


=mi 
指定 模型 列 和 输入 列 之 间 的 关系 : 
128891 | 表 列 
厂 告 费 用 _ 十 万 元 _ 到 
Bf | 月 从 ET 
销售 收入 _ 十 万 元 _ | 销售 收入 _ 十 万 元 _ xl 


图 12-17 【指定 关系 】 窗 口 
Step17: 得 到 此 模型 的 准确 性 图 表 ， 如 图 12-18 所 示 。 
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图 12-18 ”准确 性 图 表 


一 2 一 
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131 基本 概念 


Logistic 回归 模型 用 于 分 析 二 分 类 (binary) 或 有 序 Cordinal) 的 因 变 量 与 解释 变量 间 
的 关系 。Logistic 回归 模型 中 ， 用 自 变 量 去 预测 因 变 量 在 给 定 某 个 值 (如 1 或 0) 的 概率 。 
因 变 量 通 常 显示 为 二 分 类 中 某 个 值 或 有 次 序 中 的 最 小 值 。 当 因 变 量 取 很 多 不 同 的 值 时 ， 如 
等 距 尺度 Cinterval scale) 或 比例 尺度 (ratio scale) 的 数据 类 型 时 ， 通 常 使 用 简单 回归 模型 
而 不 用 Logistic 回归 模型 。 对 一 个 二 分 类 的 因 变 量 Y, Logistic 回归 模型 的 形式 如 下 : 

Logit P / (1-P) = « +X 

P=Prob (y=Y | X): REER MRE ORBE F DAE ERUIT EARS, H y FOEDE ORE 
阵 了 中 第 一 个 值 。 

a 代表 截 距 参数 矩阵 ，6 代表 斜率 参数 矩阵 ; 世代 表 解 释 变 量 矩 阵 。 

Logistic 回归 方程 即 为 第 i 组 个 别 事件 概率 (Pi) 的 对 数 (logit) 转 换 , 且 转 换 后 的 Logistic 
回归 模型 是 解释 变量 矩阵 的 一 条 直线 方程 。 而 一 般 化 的 模型 表示 法 是 用 因 变 量 的 平均 数 函 
数 gg (u) 来 表示 它 与 自 变 量 之 间 的 线性 关系 ，g 称 为 链接 函数 Aink function )。 其 他 常 
见 的 链接 函数 有 probit function 和 log-log function. logit 函数 Cogit function) 有 较 易 解释 
的 优点 ， 同 时 它 也 可 用 于 分 析 将 来 或 过 去 曾 收集 到 的 数据 。 

对 数 线性 模型 是 将 列 联 表 中 每 格 的 概率 (或 理论 频率 ) 取 对 数 后 ， 分 解 参 数 获得 的 
而 Logistic 模型 是 将 概率 比 取 对 数 后 ， 再 进行 参数 化 获得 的 。 为 了 较 好 地 理解 这 一 方法 ， 
先 介绍 logit 变换 和 Logistic 分 布 ， 然 后 再 回 到 Logistic 回归 分 析 。 


13.2 logit 变换 


人 们 常常 要 研究 某 一 事件 4 发 生 的 概率 p, p 值 的 大 小 与 某 些 因素 有 关 。 例如 研究 有 毒 
药物 的 剂量 大 小 与 被 试验 的 老鼠 的 死亡 率 之 间 的 关系 ， 死 亡 率 p 随 着 剂量 x 的 增 大 是 增长 
的 。 fRD p 的 值 在 [0，1] 区 间 内 ， 所 以 p 不 可 能 是 x 的 线性 函数 或 二 次 函数 ， 一 般 的 多 项 式 
函数 也 不 适合 ， 这 就 给 此 类 的 回归 带 来 困难 。 男 一 方面 ， 当 p 接近 于 0 或 1 时 ,一 些 因素 
即使 有 很 大 变化 , p 值 的 变化 也 不 会 显著 。 如 高 可 靠 性 系统 ， 可 靠 度 p 已 是 0.998 了 ， 即 使 
再 改善 条 件 、 工 艺 和 系统 的 结构 ， 可 靠 度 的 增 大 只 能 在 小 数 点 后 三 位 或 四 位 。 又 如 灾害 性 
天 气 发 生 的 概率 p 很 小 ， 接 近 于 0， 即 使 能 找到 一 些 刻 画 它 发 生前 焰 的 信息 ， 也 不 可 能 将 p 
值 提高 很 多 。 从 数学 上 看 ， 就 是 函数 p 对 x 的 变化 在 p=0 或 1 附近 是 不 敏感 的 、 缓 慢 的 ， 
而 且 非 线性 的 程度 较 高 ， 于 是 要 寻求 一 个 p 的 函数 9 (p)， 使 得 它 在 p=0 或 p=1 附近 时 变 
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化 幅度 较 大 ， 而 函数 的 形式 又 不 是 太 复杂 。 


首先 ， 来 反映 0 (p) 在 p 附近 的 变化 是 合理 的 , 同时 在 p=0 或 1 时， 下 
ip 
应 有 较 大 的 值 ， 这 自然 要 考虑 : 
dé(p) — ! 
dp — pü-p) 


接着 ， 将 上 式 取 成 等 式 ， 就 有 : 
dép) — 1 1, 1 


再 求 积分 后 可 得 : 
6(p)7 n 
-p 
上 式 相对 的 变换 称 为 logit 变换 。 很 明显 0 Cp) 在 p=0 与 p=1 附近 的 变化 幅度 很 大 ， 
而 且 当 p 从 0 变 到 1 时 , 0 (p) 从 -s 变 到 ， 这 样 就 克服 了 一 开始 指出 的 两 点 困难 。 如 
果 p 对 x 不 是 线性 的 关系 , 96 对 x 就 可 以 是 线性 的 关系 了 ,这 给 数据 处 理 带 来 很 多 方便 。 从 
前 式 ， 将 p 由 0 来 表示 ， 就 得 
e? 


We 


WR 0 JE C F1 AE RE xu vn BARCOS a Jil] p I xeu 的 函数 : 


p= 


很 多 教材 讨论 Logistic 回归 时 ， 都 是 直接 从 该 式 开始 芯 
13.3 Logistic 分 布 
如 果 分 布 函数 满足 以 下 形式 : 


F(x) 2 (14e y —o<x<0 (Jip -<u <,0>0 ) 
则 该 分 布 称 为 Logistic 分 布 。 另 外 ，F(x) 也 可 表示 成 : 
5) 
20 


F(x)2— (reme 
jS i 
f(x)z—e 7 pee 
o o 


再 将 p 表示 成 FOWE: 


其 密度 函数 为 


— 7143 


IE | ExcsL2007 3x99 


p=1-F (x)= e @-mle (| ec) 
相应 地 ，9 = 一 人 。 上 式 说 明了 logit 变换 与 Logistic 分 布 的 关系 。 
o 
上 式 还 说 明 ，Logistic 分 布 仍然 是 属于 位 置 一 尺度 参数 族 ， 其 中 凡是 位 置 参 数 ，c 是 尺 
度 参数 , 这 样 凡是 与 位 置 一 尺度 参数 族 有 关 的 结果 , 均 对 Logistic 分 布 有 效 。 当 /=0,a=1 
时 ， 相 应 的 分 布 称 为 标准 Logistic 分 布 ， 它 的 分 布 函数 F GO. 与 分 布 密度 万 (x) 为 : 


ee < X< eë 
AQ) 2e" [ü ey 


很 明显 ， 如 果 考 虑 : 
GG) =e" /0 +e), — < x <% 
则 Go (x) 也 是 一 个 Logistic 分 布 函数 ， 且 有 如 下 关系 式 : 
G,(x) =1— CX) = FG) 
因此 有 的 教材 也 从 Go GO 出 发 ， 以 它 作为 标准 分 布 。 
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现在 来 讨论 如 何 将 2x2 表 转 化 为 一 个 Logistic 的 回归 模型 , 现 以 下 例 为 背景 进行 分 析 。 


假定 吸烟 人 得 肺癌 的 概率 是 p!， 不 得 肺癌 的 概率 就 是 1-21， 不 吸烟 的 人 得 肺癌 的 概率 
是 pp， 不 得 肺癌 的 概率 为 1-P2。 于 是 经 过 logit 变换 后 : 


6 =n, 6@=In 
1- p, 1-p 
MRONO, WA =9+(9 -2)=6+4。 因 此 患 肺癌 是 否 与 吸烟 有 关 ， 就 等 价 于 


KU H,:A-0. 


考察 了 92 个 吸烟 者 ， 其 中 60 个 得 肺癌 ,对 于 不 吸烟 的 14 个 人 中 有 3 个 得 肺癌 。 更 一 
般 地 ， 若 考察 了 nmi 个 吸烟 者 ， 得 肺癌 者 有 ri 个 ;考察 mo 个 不 吸烟 者 ， 得 肺癌 者 有 个 ， 


r. 


因此 pi 与 pz HEDA p, =, p. A. 2: 


z -ln—L—, i-12 


则 可 以 证 明 ， 当 充分 大 时 ， 有 下 述 等 式 成 立 : 
E(z,)=0, vej EN i=1,2 
nipi(l— pi) 


如 果 写 成 向 量 的 形式 ， 就 是 : 
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a] [hr fo 
E ES 
Z 10]|A 
1 
Var Zl np, - p) 
z 0 1 


nypy(1— p,) 
WR z1，z 是 正 态 变量 ， 这 就 是 2x2 列 联 表 的 Logistic 回归 模型 。 


一 般 地 ， 当 m 充分 大 时 ，z 服从 渐 近 正 态 分 布 ， 并 将 这 一 类 问题 的 回归 称 为 Logistic 


归 。 
13.5 Excel 2007 Logistic 回归 


Microsoft Logistic 回归 算法 实际 上 是 Microsoft 类 神经 网 络 算法 的 特例 ， 即 不 包含 
层 的 神经 网 络 。 该 算法 同时 支持 离散 属性 和 连续 属性 的 预测 。 
Stepl: 进入 Excel 的 范例 ， 如 图 13-1 所 示 。 


DMAddins SampleData [修复 的 ] - Microsoft Excel TEx 
HO. 而 而 布局 isto 数据 SA 视图 BRR 加 -ox 
| Se ) PeEA- 
| -u [A am mmm] = = -| R dm x end e T À 
SHES o 套用 单元 格 排序 和 查找 和 
| ME Jairu) ea (maim [e E (8o [s| ae. m. D TC T mmm 
| EAE C 字体 E 对 六 方式 数字 样式 单元 格 编辑 | 
"EHE = ul 
| — m "uml s - - x 
| A B c D E F G L H L.L 
1 用 于 分 析 关键 影响 因素 、 检 测 类 别 、 突 出 显示 异常 值 和 应 用 场景 分 析 的 示例 数据 。 
2 
s FM - [TPTYKUPYWETP - DPPYYSEPN Incoe chilaren - Education n - Occupation bd FEES IE] 
4 12496 Married Female 40000 Bachelors Skilled Manual 
5 24107 Married Yale 30000 i Partial College Clerical = a 
6 1417" Married Xale 80000 5 Partial College Professional No 2 
bi 24381 Single Kale 70000 0 Bachelors Professional Yes i 
8 25597 Single Kale 30000 0 Bachelors Clerical No 0 
9 13507 Married Female 10000 2 Partial College Manual Yes 0 
10 27974 Single. Kale 160000 2 High School Managenent Yes 4 
11 19364 Married Nale 40000 1 Bachelors Skillcd Manual Yes o 
12 22155 Married Kale 20000 2 Partial High School Clerical Yes 2 
18 19280 Married Kale 20000 2 Partial College Manual Yes 1 
14 22173 Married Female 30000 8 High School Skilled Manual No Pl 
15 12697 Single Female 90000 0 Bachelors Professional No 4 
16 11434 Marricd Xale 170000 5 Partial College Professional Yes 4 
iv 25323 Married Kale 40000 2 Partial College Clerical Yes £ 
18 23542 Single Kale 60000 B Partial College Skiiled Manual No i 
19 20870 Single Female 10000 2 High School Manual Yes 1 
20 23316 Single Male 30000 3 Partial College Clerical No 2 
21| 12610 Married Female 30000 1 Bachelors Clerical Yes ° 
22 27183 Single Yale 40000 2 Partial College Clerical Yes 1 
23| 25940 Single Wale 20000 2 Partial High School Clerical Yes 2 
24 25598 Married Female 40000 0 Graduate Degree Clerical Yes 0 
25 21564 Single. Female 80000. 0 Bachelors Professional Yes 4 
26 19193 Single Xale 40000 2 Partial College Clerical Yes o 
27| 26412 Married Fenale 80000 5 High School Managenent No 3 
28| 27184 Single Male 40000 2 Partial College Clerical No 1 
29 12590 Single Yale 30000 1 Bachelors Clerical Yes 0 
30 17841 Single Hale 30000 0 Partial College Clerical No id 
Dai igoeran Tanan ñ 
1 « KW] Introduction, Table Analysis Tools sample ANE BERENE MIERE REHE Foreca 
sea | 
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Step2: 单 击 【高 级 】 下 的 【创建 挖掘 模型 】 按 钮 ， 如 图 13-2 所 示 。 


DMAddins SampleData [485] - Microsoft Excel -=x 
@- sx 
A ËJ K DA | 
: | 
x = X m € sqDm m # | 
联 测 | 级 "| ERO 图 E 询 模型 (oho) 3 0x 
mH =R ES sem 
K, ormer | 
- & s] x 
A B c D| E ç B L 1 
i 用 于 分 析 关 键 影 响 因 素 、 检 测 类 别 、 突 出 显示 异常 值 和 应 用 场景 分 析 的 示例 数据 。 l 
2 
3 -ITHINUEETT = TFT] TFT 二] -| 
4 — 12496 Married Fenale 40000 1 Eachelers Skilled Manual Tes n 
S 24107 Married Tale 30000. 3 Partial College Clerical Tes 1 
6 14177 Married Wale 80000 5 Partial College Professional No 2H 
了 24381 Single. Male "T0000 ° Bachelors Professional Yes 1 
8 25597 Single Tale 30000 ° Bachelors Clerical No D) 
9 — 13507 Married Fenels 10000 2 Partial College Manual Tes [ 
10 27974 Single Tale 160000 2 Eigh School Janagenert Tes 4 
11 19364 Married Tale 40000. 1 Bachelors Skilled Manual Tes ° 
12 22165 Married Tale 20000 2 Partial High School Clerical Tes 2 
18 19280 Married Nale 20000 2 Partial College Manual Yes 1 
l4 22173 Married Female 30000 3 Eigh School Skilled Manual No z 
15 12697 Single Female 90000 0 Bachelors Professional No 4 
16 11434 Married Nale 170000 5 Partial College Professional Yes 4 
iT 25323 Married Nale 40000 2 Partial College Clerical Yes 1 
18 23542 Single Male 60000 x Partlal College Skilled Manual No 1 
19 20870 Single Female 10000 2 Eigh School Manual Yes 1 
20 23316 Single Wale 30000 s Partial College Clerical No 2 
21 12610 Married Fenale 30000. hi Bachelors Clerical Yes 0 
22 27163 Single Male 40000 2 Partial College Clerical Yes 1 
23 25940 Single Yale 20000 2 Partial High School Clerical Tes 2 
24 25598 Marricd Female 40000 ° Graduate Degree Clerical Yes 0 
25 21564 Single Fenale 80000 o Bachelors Professional Tes 4 
26 19193 Single Male 40000 2 Partial College Clerical Yes 0 
2 26412 Married Female 80000. 5 Eigh School Managenent No 3 
28 27184 Single Male 40000 2 Partial College Clerical No 1 
29 12590 Single male 30000 £ Bachelors Clerical Yes o 
30 17841 Single Male 30000 o Partial College Clerical $ 
3I 1873 Single =m " ENERO pH — 
Korn Ingoductlion] Table Analysis Tools Saaplz EJE “Wu Pe E CSI Foreca] 
wan 


选择 源 数据 


GO: [ascii ra m —— - | 
个 数据 区 域 (D): j s 


C Analysis Services BHEUR(A): 


数据 源 名 称 (5) | e| 


mA (9): 


3 13-3 【选择 源 数 据 】 窗 口 
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Step4: 在 【数据 区 域 】 下 拉 列 表 框 中 选择 数据 表 【 ?Table Analysis Tools Sample’! 
Table2】， 单 击 【下 一 步 】 按 钮 ， 如 图 13-4 所 示 。 


ES TI LUNDI 


- D| x] 

选择 源 数 据 

€ XD: [Table Analysis Tools Sample'!'Table2 可 
Introduction’ Table21" 

C 数据 区 域 (D) : Tai Tools Š 


VERE nar 
EERE P 312 
C Analysis Services 数据 源 (| PEH IRIS 


’ Forecasting’ !' Table5" 
j l'Fill From Example’ !' Table25" 
数据 源 名 称 (3) ; 


3B (Q): 


ctc mn 


4 
13-4 选择 数据 表 


Step5: 在 【算法 】 下 拉 列 表 框 中 选择 【Microsoft 逻辑 回归 】， 单 击 【 下 一 步 】 按 钮 ， 
如 图 13-5 所 示 。 


C 创建 控 据 模型 向 导 


= Ip| xi 
选择 控 气 算法 


选择 挖掘 算法 ， 同 时 也 可 以 设置 算法 参数 


S 《< 上 一 步 @@) | | 下 一 步 (0) > 取消 


| 
13-5 选择 挖掘 算法 
Step6: 在 如 图 13-6 所 示 的 【选择 列 】 窗 口中 选择 被 预测 变量 Purchased Bike, 单 击 【下 


i 


Ti [Eso mEEERSSTB w — 


一 步 】 按 钮 。 


EX 创建 控 握 模型 向 导 inl xl 
选择 列 


alel 


表 列 用 法 | 

Gender 输入 E.. 
Income 输入 H.. 
Children 输入 H.. 
Education 输入 g.. 
Occupation 输入 m.. 
Hone Ower 输入 El .. 
cas | 输入 gl... 
Conmute Distance | 输入 H.. 
Region 输入 H.. 
m E.. 


图 13-6 【选择 列 】 窗 口 
Step7: 在 如 图 13-7 所 示 的 【完成 】 窗 口中 ， 选 中 【浏览 模型 】 复 选 框 ， 单 击 【完成 】 


按钮 。 
ER ini xi 
ü X 
结构 名 称 (3) : FSB www 
5 [DNA dd: SanpleD. lsx 工作 薄 Table 
结构 说 明 (DD) : Analysis | Tools Sample 至 作 素 中 Table2 表 的 H 
BAZH: [rab1e2 - Ea 
° RE 表 建 立 的 = 
模型 说 明 (o): microsoft Logistio Regression 模型 B 
选项 
T UE (R) 
T- BEFHIHTIRAS (U) 


F ERILE) 


13-7 【完成 】 窗 口 
Step8: 在 如 图 13-8 所 示 的 【浏览 】 窗 口中 ， 可 看 出 在 被 预测 变量 Purchased Bike 中 各 
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变量 属性 的 特征 


EE 
ss 
SEEE: [Purchased Bike Z] 
fi No b 
LES Tes F 
HF Wo r 
wi 

Commute Distance 10* Miles  m— € 

Education Partial High School [Eu 

Region Pacific EL 

Children 3 [LL —"] 

Cars 4 Li 

Occupation Management mm 

Commute Distance 2-5 Niles LI 

Age 51.844 - 78.234 mmm 

Cars 3 — 

Commute Distance 5-10 Miles = 

Commute Distance 0-1 Miles === 

Education Bachelors qmm] 

Cars 2 L 

Ate 25.000 ~ 36.596 === 

Cars ° Li 

Resin North America — 

复制 到 Excel (E) 关闭 @) 


13-8 【浏览 】 窗 口 
Step9: 将 列 出 的 Logistic 回归 的 特征 复制 到 Excel, And 13-9 所 示 。 


ts DMAddins SampleData [修复 的 ] - Microsoft Excel =e 
CD xa xx mam ¿m sm wn mm smo -ox 
EEES HEAS B &J ROA 未 2 & 
| 浏览 清除 为 数据 3 估 wt x 5 准确 性 分 类 xU a popu m" " 
| w& 数据 ”分 区 (X f $0 E a x mx e m | x i |an lawo m | m` 

sete sama Fam | ammi 管理 i E | 
dos s 

Al 
c D E F G E L J 
Table? - 逻辑 回归 


神经 网 络 
Purchased Bike 


s 

+ PUJ [LT 

5 Children mE 

E Commute Distance 10+ Miles = 

7 Education Partlal Elgh School = 

Ë Region Pacific = 
° Children s = 
10 Care 4 m 

1i Occupation Management m 

12 Conmute Distance 2-5 Miles p 
13 Age 51.844 ~ 78.236 m 

14 (Cars a E 
15 Commute Distence 5-10 Miles m 

16 Connute Distence 0-1 Niles 

17 Education Bachelors 

18 [Cars 2 m 

19 Age 25.000 - 38.536 

20 |Cars d 

21 Region North Anerica 

22 Incene 77093. 742 - 149338. 195 

23 Occupation Professional 

24 Marital Status Single 

25 ducati. Grau 

M * v n Introduction, Table Analysis Tools Saaple] 神经 同治 利润 图 ， 属 竹 本 重文 件 | ESMERRE A 
wm 习 


13-9 复制 到 Excel 


|H B | Excel 2067 数据 挖掘 完全 手册 


Step10: 单 击 【数据 挖掘 】 中 的 【准确 性 图 表 】 按 钮 ， 弹 出 如 图 13-10 所 示 的 【准确 性 
图 表 向 导入 门 】 窗 口 。 


未 > & 
€ ”SQLDemo B  # 
#m  (lcalhos) 8 m | 


准确 性 和 验证 模型 用 法 “管理 Ej 必 助 


Childre 
Connute. 
ducati 
Region 
9 Childre 
10 Cars 

11 Occupat 


12 Conmute 

18 Ase 它 做 些 什么 ? 

14 Care SIN 6 ORRE E ANEDE ENERET 

15 lenat 3. MOSS EUN CEONRUR.. AES CREE Mi 

16 Connuta EAEAN 

17 Educatl si 
18 Cars 

20 Cere 三 不 下 显示 此 驮 迎 页 。 

21 Region 

£2 Income 

23 Occupat == [zz 5] [= 
24 Marita] 


25 Education Graduate Degree 
M + p M Introduction Table Ansiysis Tools Sample | 神经 网 绍 Aun WEEE WE OE] 


mw 门 


13-10 【准确 性 图 表 向 导入 门 】 窗 口 


Stepll: 在 如 图 13-11 所 示 的 【选择 模型 】 窗 口中 ， 单 击 【下 一 步 】 按 钮 。 
El 


— 7 


模型 属性 : 
AssocSeq 模 Table2 - 逻辑 回归 = 
— = 
— * 
称 


Table2 结构 
z Microsoft Logistic Regression 


说 根据 Table2 METAI 
明 Microsoft Logistic. Regression = 


Purchased Bike 


rs | [FFE] 


13-11 【选择 模型 】 窗 口 


Step12: 在 【要 预测 的 挖掘 列 】 下 拉 列 表 框 中 选择 Purchased Bike， 并 单 击 【 下 一 步 】 
按钮 ， 如 图 13-12 所 示 。 


i 


Æ 13 € Logistic &/3] M BI | 


-loj xl 
指定 要 预测 的 列 和 要 预测 的 值 Z 
要 预测 的 挖掘 列 QD : urchased Bike 
要 预测 的 值 ( 习 : Pa 一 
说明 
此 任务 用 于 分 析 模 型 “Table2 - 膛 辑 回归 ”在 对 向 
所 选 测试 数据 预测 


100% 

导 下 一 页 "Purchased Bike" Hj 80% 
表 报 表 ， 说 明 模型 x 

"Table2 - 逻辑 回归 ”在 预测 “Purchased Bike" 

时 的 准确 性 。 40% 
20% 

0% 


此 图 表 说 明正 确 预测 数 随 着 模型 分 析 的 事例 数 增 大 
而 增 大 . 


《上 一步 (8) | | 下 一 步 (D> 


取消 


VA 
13-12 ”选择 要 预测 的 挖掘 列 


Step13: 从 【 表 】 下 拉 列 表 框 中 选择 数据 表 【?Table Analysis Tools Sample’! Table?’ ], 
并 单 击 【 下 一 步 】 按 钮 ， 如 图 13-13 所 示 。 


Ç 3 15:13 


Anl xl 
选择 源 数据 7 
€ BED] "Table Analysis Tools Sample' !' Table?’ - 
C 数据 区 域 (D) : B 
r 3C ROCHE DELL pes (Ú 

C Analysis Services BER (A): 

数据 源 名 称 (5) : pe 

查询 (g) ; 


图 13-13 ”选择 数据 表 


Step14: 在 如 图 13-14 所 示 的 【指定 关系 】 窗 口中 ， 单 击 【 完 成 】 按 钮 。 
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指定 关系 


指定 模型 列 和 输入 列 之 间 的 关系 : 

E57] ES] 
——rut ... El 
Cars Cars x 
Children Children 到 
Commute Distance Commute Distance 到 
Education Education 到 
Gender Gender 到 
Hone Owner Hone Owner 到 
Income Incone 到 
Marital Status Marital Status xl 
Occupation Occupation xl 
Purchased Bike Purchased Bike x 
Region Region x 


Stepl5: f 


13-14 【指定 关系 】 窗 口 
到 模型 “Table2- 逻 辑 回 归 ” 的 准确 性 图 表 如 图 13-15 所 示 。 


DMAddins SampleData [ier] 


Microsoft Excel 


i 


wete neze AROE emma =e =m j 
[ -— - ë 
A E c n z F 1 1 L x 

1 模型 "Table2 - 逻辑 回归 "的 准确 性 图 表 

2 TEM FI" Purchased Bike? No 

3 

d "Table2 -逻辑 回归 "模型 氛 升 119.66% 

6 

了 D 

8 

9 s 

10 

u B0% 

12 

13 

5 m% 

HERES 

you 

mm 一 
al) Š ox 一 Tabiez IBS 
21 men 
22 30% 

23 

24 20% 

25 

26 ns 

8| a. 

5s ok — Ak ows XX eX ss AX m N m ans 

» Sepu. 

32 

33 

En 

55 EEIT EXETTI-ETTT-] 


+ Introduction, Table Analysis Tools Saspie 


MEME KARAT ANE EAEE E ERGHE sar=csstans FH 


mu 
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图 13-15 ”准确 性 图 表 


38 43 & /Logistic 8/3] M || | 


Step16: 得 到 模型 “Table2- 罗 辑 回 归 ” 的 准确 性 百 分 位 数 表 如 图 13-16 所 示 。 


ú DMAddins SampleData [收复 的 ] - Microsoft Excel Lex 
I sme WA WW 。 公式 EUR 市 阅 视图 mampis 加 -ox 
š "a 
Jag 5cvu«eDBu Oo s ^u 
浏览 清除 为 数据 分 估 Ex X E m 准确 性 分 类 m = 管理 ”SQL Demo R ka 
数据 数据 ”分 区 类 + $f X A me BE Gem i * dw 模型 (localhost) 踪 Rh. 
数据 准备 准确 性 和 验证 ERE == 连接 帮助 
dos 
_E33 > asal — es — [uj 

[4 A B Gm D Jnd F G H| 
35 EER -EMCE EEL EELE 

36 0* 0.00 % 0.00 $ 

37 1% 1.35% 1.93% 

38 2% 2.89 % 3.85 % 

39 3% 4.05 % 5.78 % 

40 4. 5.18 % 7.71 % 

41 5% 7.51 % 9.63 % 

42 6% 9.44% 11.56 % 

43| 7% 11.18 % — 13.49 % 

44 8% 12.91% 15.41 & 

45 | 9% 14.84 & 17.34 % 

46 10% 16.18% 19.27 & 

47 11% ls 53% 21.19 % 

|48 | 12% — 08 % 12 " 

M + * ^| Introduction, Table Analysis Tools Sample E 网 络 准确 性 图 表 利润 图 局 1 

wc 


13-16 ”准确 性 百 分 位 数 表 
Step17. 接着 单 击 【 数 据 挖掘 】 中 的 【分 类 和 矩阵】 按钮 ， 弹 出 如 图 13-17 所 示 的 【分 类 
矩阵 向 导入 门 】 窗 口 ， 单 击 【 下 一 步 】 按钮 。 
EE ol 
> 分 类 矩阵 向 导入 门 


» 


它 是 什么 ? 

分 类 矩阵 向 导 人 允许 您 根据 Excel 表 、Excel 区 域 或 
Analysis Services es 
该 向 导 比 较 将 模型 应 用 于 测试 数据 的 结果 和 测试 数据 的 实际 
和 


它 做 些 什么 ? 

该 向 导 允 许 您 从 服务 器 上 可 用 的 模型 列表 中 选择 要 评估 的 模 
型 、 模 型 的 输出 列 和 测试 数据 源 。 该 向 导 还 允许 您 定义 测试 数 
据 列 和 模型 列 之 间 的 映射 。 = 


注释 
MIME SO. Server hnalvsis Services Wizke 加 


T- 不 再 显示 此 欢迎 页 D). 


13-17 【分 类 和 矩阵 向 导入 门 】 窗 口 
Step18: 在 如 图 13-18 所 示 的 【选择 模型 】 窗 口中 ， 单 击 【 下 一 步 】 按 钮 。 
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|H 图 | ExcsL2007 数据 挖 所 完全 手册 


加 
选择 模型 
模型 - 属性 : 
AssocSeq El Table2 - 逻辑 回归 zi 
chi2 各 
Table2 结构 * 


& Microsoft Logistic Regression 


Table2 - 逻辑 回归 


说 根据 Table2 表 建 立 的 
明 Microsoft_Logistic_Regression 
模型 


Purchased Bike 


《上 一 步 @) || F—# 0) > 取消 


A| 


13-48 【选择 模型 】 窗 口 


Step19: 在 【要 预测 的 挖掘 列 】 下 拉 列 表 框 中 选择 Purchased Bike， 再 单 击 【 下 一 步 】 
按钮 ， 如 图 13-19 所 示 。 


ojx] 
指定 要 预测 的 列 E 
要 预测 的 挖掘 列 (0 : = 
F 以 百分比 显示 结果 (E) 
Iv 以 计数 显示 结果 (0 
mikaa 
此 任务 用 于 分 析 模 型 “Table2 - ZRO” E a A B ü 
向 导 下 一 页 所 选 测试 数据 预测 “Purchased Bike" 1 Counts of correct/incorrect cla: 
时 的 性 能 .此 任务 会 生成 矩阵 报表 ， 说 明 模 型 8 
“Table2 - 逻辑 回归 ”在 预测 “Purchased 9 O(Actual) 1(Actual) 
Bike” 时 进行 的 正确 分 类 和 错误 分 类 10 O 6853 2974 
11 1 2499 6158, 


此 矩阵 说 明 “Purchased Bike” 列 的 每 个 不 重 | 12 
复 状态 在 测试 数据 中 的 出 现 次 数 以 及 在 “Table2 - | 13 Corret — 6853 — 6158 
逻辑 回归 ”的 预测 结果 中 的 出 现 次 数 ， 14 Misclassifi 2499 — 2974 


正确 的 预测 显示 在 分 类 矩阵 的 主 对 角 线 上 。 不 
人 F 


cso E m | 


13-19 选择 要 预测 的 挖掘 列 


Step20: 在 【 表 】 下 拉 列 表 中 选择 数据 表 【’*Table Analysis Tools Sample’! Table?’ ], F 
单 击 【 下 一 步 】 按 钮 ， 如 图 13-20 所 示 。 
Step21: 在 如 图 13-21 所 示 的 【指定 关系 】 窗 口中 ， 单 击 【 完 成 】 按 钮 。 


i 


Æ 13 & Logistic a] M EI | 


ziii 
ARRE E 
c XQ: [ Table Analysis Tools Sample’ !' Table?’ zl 
Table Analysis Tools Sample’ l Table?’ 
C 数据 区 域 (D): i 


ERRAR Zo 
CAE I eun 
[EGER naar 


4r x12 


C Analysis Services 数据 源 (, FEJE xq 


数据 源 名 称 (3) : 
查询 (9) ; 


| Forecasting’ ' Table5" 


Igi 


«r-9m[[r-»m»] 。 ma |, 


图 13-20 选择 数据 表 


Esl 


指定 关系 

指定 模型 列 和 输入 列 之 间 的 关系 : 

挖掘 列 35 
w. 

Cus. Cars 

Children Children 

Commute Distance | Commute Distance 

Education Education 

[Gender 


Marital Status 


[Marital Status 


Occupation Occupation 
Purchased Bike Purchased Bike 
Region Region 


LEN CINE CERE ECOLE CC 


Em m 


1321 【指定 关系 】 窗 口 


Z 


Step22: 此 时 可 得 到 分 类 矩阵， 如 图 13-22 所 示 。 由 表 可 知 分 类 正确 率 达 66.1096. 4) 


类 错误 率 为 33.90%。 


Step23: 单 击 【数据 挖掘 】 中 的 【利润 图 】 按 钮 ， 如 图 13-23 所 示 。 
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帮助 
F4 -G 
A (ERE aaa mn D | E Hasani c H Ë 
1 模型 Table2 - 逻辑 回归 "对 列 “Purchased Bike” 的 正确 /错误 分 类 的 计数 
2 | 行 对 应 于 预测 值 
3 
4 [ ] 
5 正确 总 计 ; 66.10% 661 
5 错误 分 类 总 计 ; 33.90% 339 
7 
8 百分比 结果 
9 I No( Sz s] = Yes SE Es] = 
10 No 66.28 & 3410 % 
11 Yes 33.72% 65.90 & 
12 
13 正确 66.28% 65.90% 
14 分 类 错误 33.7229 34.10% 
16 | 计数 结果 
ETH [x] No(Scbs] = | Yes Sz be) e] 
18 No 344 164 
19 Yes 175 317, 
[20 
21 正确 344 317 
Lt mg I 
13-22 ”分 类 矩阵 
DMAddins SompleDota [1985] - Microsoft Excel ren 
m m AE meng | 图 -mx 


准确 性 分 类 O 浏 站 人 管理 SQLDemo M 
m= Ek m= s a 


| ememr | anaE 


EAr EEEE A 


— A. _ L... n... c L... sats .DMClientXLA deli 
模型 "Table2 8S IET" REPE Purchased Bike” MERR i 8 SQLServerD BEEF, 
_| 行 对 应 于 预测 位 - 


正确 总 计 : 
错误 分 类 总 计 ; 


百分比 结果 


[e] Ne(Sc EG) e] Yes[ Sc 
No 66.28 & 34.10 % 
Yes 33.72 % 65.90 & 


66.28 % 
33.72% 


65.90 % 
34.10% 


ZI NAE s) = Ye 实际 j 
No 344 164 
Yes 175 317, 


图 13-23 ”建立 利润 图 
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3813 & JLogistic 83] BE |l | 


Step24: 在 如 图 13-24 所 示 的 【利润 图 向 导入 门 】 窗 口中 ， 单 击 【 下 一 步 】 按 钮 。 
lol xi 
> 利润 图 向 导入 门 


它 是 什么 
Bins cives Excel X. Excel 区 域 或 
Analysis Services 查询 的 测试 数据 为 现 有 分 类 模 
型 生成 利润 图 。 HERETER ERS <Ë 


9 客户 à 
Tp, MAESE aL NAME 

， 但 在 该 转折 点 后 ， 随 着 联系 的 客户 个 体 数量 增 
2, RIBET: m 


它 做 些 什么 ? 
该 向 导 允 许 您 (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 
评估 的 描 刑 ， 描 刑 的 输出 弄 ， 可 祖 测 列 的 日 标 装 太 和 


所 


T- 不 再 显示 此 欢迎 页 (D) 。 


CES my D 
13-24 【利润 图 向 导入 门 】 窗 口 
Step25: 在 如 图 13-25 所 示 的 【选择 模型 】 窗 口中 ， 单 击 【 下 一 步 】 按 钮 。 


= I| xi 
选择 模型 e 


mu 属性 : 
模 Table2 - 逻辑 回归 
= 


Table2 结构 
: 算 Microsoft Logistic Regressi 


说 根据 Table2 表 建 立 的 = 
Microsoft Logistic Regressic 
模型 


Purchased Bike 


人 如 ES 


13-25 【选择 模型 】 窗 口 


Step26: 在 如 图 13-26 所 示 的 【指定 利润 图 参数 】 窗 口中 ， 设 定 要 预测 的 挖掘 列 、 要 
预测 的 值 、 目 标 总 体 、 固 定 成 本 、 单 项 成 本 、 单 项 收入 ， 单 击 【 下 一 步 】 按 钮 。 
Step27: 在 【 表 】 下 拉 列 表 框 中 选择 数据 表 【*Table Analysis Tools Sample’! Table?’ ] , 


—s 


|H B | Excel 2067 数据 挖掘 完全 手册 


如 图 13-27 所 示 ， 单 击 【 下 一 步 】 按 钮 。 


-ixi 
指定 利润 图 参数 


要 预测 的 挖掘 列 (2 : 
要 预测 的 值 ( 习 : 
目标 总 体 (了 : 
固定 成 本 (了 : 
单项 成 本 (DD: 

单项 收入 (了 : T US 
说 明 
此 任务 通过 使 用 “Table2 - 未 辑 回归 ”模型 对 所 产 J= — 

50 


生 的 利润 进行 建 模 ， 从 而 在 类 似 于 向 导 下 一 页 所 选 测 7 


试 数 据 的 数据 中 识别 事例 “Purchased 


此 任务 假设 将 模型 预测 应 用 于 实际 数据 会 产生 


(全 用 建议 值 的 ) 单 项 成 本 以 及 因 证 成 本 。 EÍ 
-sw | [下 Bü 
m = |, 
13-26 【指定 利润 图 参数 】 窗 口 
EEIE 
选择 源 数据 g 
caD: ars P Table? 


C 数据 区 域 (D) : IF 
T meet (m 


C Analysis Services 数据 源 (&): 


SERER): —— pa 
zril (9): 5 
z 


< 上 一 步 (8) ms |, 


13-27 选择 数据 表 


Step28: 在 如 图 13-28 所 示 的 【指定 关系 】 窗 口中 ， 单 击 【 完 成 】 按 钮 。 
Step29: 得 到 利润 图 和 利润 百 分 位 数 表 ， 如 图 13-29、 图 13-30 所 示 。 


s 


AJEN 


£ 
指定 模型 列 和 输入 列 之 间 的 关系 : 

REN 表 列 

 ———w— .. =l 
Cars Cars E 
Children Children EJ 
Commute Distance Commute Distance x 
Education Education il 
Gender Gender 到 
Hone Owner Hone Owner El. 
Incone Income El 
Marital Status Marital Status x 
Occupation Occupation 到 
Purchased Bike Purchased Bike x 
Region Region xi 


e) 开始 mA mmn ix WE 


DMAddins SampleData [ias] - Mier: 


Excel 


-x 


@- 


w mm 
7l r ) 
& m)l A Š) k 2 & 
5 分 类 oc 管理 ”SQLDemo Jm a 
xx m tt?  (localhoso 1 Lg 
mams |l TeSa Lord == s= aa 
wec s 
12 mm 
E n z c D z z z 3 I i £ — E x 
1 模型 "Table2 - 逻辑 回归 "的 利润 图 
z HIE EEr purchased sikc"- No [ 
s 
4 BA 5000] 
jam z000] 
š SIUE 
1 ATRA 18 
2 RAWA Fassman 
ET aas 
m 
az| 
u Table2 -逻辑 回归 


13-29 利润 图 
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: 
| 42. ox 0.00 X (¥5, 000.00) 100.00 % 
| 43 1* 1.35 & (Y1,250.00) 92.40 X 
| 44 2* 2.89 * 1*X3,250.00 290.41 * 
| 45 3* 4.05 * Y 6,250.00 88.68 % 
| 46 4* 5.78%  Y11,500.00 85.01 % 
[AT | 5% 7.51 &  Y16,750.00 84.10% 
| 48 6* 9.44 X  Y22,750.00 82.60 X 
| 49 7T% 11.18 X — Y28,000.00 82.07 X 
| 50 B* 12.91 & — Y33,250.00 80.95 X 
| 51 9% 14.84 X  Y39,250.00 79.79 X 
| 52 10* 16.18 % — Y43,000.00 78.65% 
| 58. 11% 17.53%  ¥46,750.00 77.78 * 
| 54 12% 19.08 X ¥51,250.00 76.89% 
| 55 13% 20.23%  Y54,250.00 76.01 % 
| 56 14 * 21.58 %  Y58,000.00 75.23 % 
| 57 15* 22.35% Y 59,500.00 74.20 % 
58 16 * 23.89 %  1Y64,000.00 73.08 % 
59 | 17% 25.05%  Y67,000.00 72.57 X 
| 60 18* 26.40 X  Y70,750.00 72.19 % 
| 61 19 * 27.94 € Y 75,250.00 71.20 % 
62 20* 29.09%  Y78,250.00 70.64 % 
63 30.64 X — Y82,750.00 69.66 % 
een NI el A hBi š, 


13-30 ”利润 百 分 位 数 表 
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第 14 章 ”类 神经 网 络 


14.1 基本 概念 


为 了 在 语音 及 影像 识别 领域 实现 与 人 脑 相 似 的 功能 ， 自 1940 年 起 , 科学 家 开始 了 类 神 
经 网 络 方面 的 研究 ， 模 仿 最 简单 的 神经 元 模型 ， 构 建 最 原始 的 类 神经 网 络 (artificial neural 
network, ANN); JJ% 40 年 的 发 展 ， 类 神经 网 络 的 研究 工作 与 生理 学 、 心 理学 、 计 算 机 科 
学 等 学 科 交 叉 渗 透 ， 成 为 新 的 研究 领域 。 

-部 机 器 的 运作 或 一 个 事件 的 发 生 常常 有 相对 应 的 因果 关系 〈 例 如 : 打开 电器 的 开关 ， 
电器 开始 工作 ; 脚 踩 油门 ， 汽 车 加 速 )， 将 打开 开关 与 脚 踩 油门 的 动作 称 为 系统 的 输入 ， 电 
器 与 汽车 称 为 系统 ， 而 电器 的 运作 与 汽车 的 速度 称 为 系统 的 和 输出， 整个 输入 与 输出 的 关系 
可 以 用 一 个 方块 图 来 表示 ， 如 图 14-1 所 示 。 


14-1 系统 的 输入 与 输出 关系 


类 神经 网 络 的 一 个 优点 在 于 无 须 了 解 系统 的 数学 模型 的 具体 形式 ， 而 直接 用 神经 网 络 
取代 系统 的 模型 ， 一 样 可 以 得 到 输入 与 输出 之 间 的 对 应 关系 。 其 方块 图 如 图 14-2 所 示 。 


— 模型 TIT 
9^ ži 


14-2 ”神经 网 络 的 输入 与 输出 关系 


人 类 的 大 脑 大 约 由 10! 个 神经 细胞 nerve cells) 组 成 ， 而 每 个 神经 细胞 又 有 104 个 突 
fik synapses) 与 其 他 细胞 互相 连结 成 一 个 非常 复杂 的 神经 网 络 。 一 个 神经 单元 由 一 个 细胞 
主体 (cell body) 构成 ， 而 细胞 主体 则 有 一 些 分 支 凸 起 的 树 状 突起 〈dendrite) 和 一 个 单一 
分 支 的 轴 突 (axom)。 树 状 突起 接收 其 他 的 神经 单元 的 信号 , 而 当 其 所 接受 的 脉动 (impulse) 
信号 超过 某 一 特定 的 阔 值 threshold)， 这 个 神经 单元 就 会 被 点 燃 (fire)， 并 产生 一 个 脉动 
传递 到 轴 突 。 

在 轴 突 末端 的 分 支 称 为 胞 突 缠 络 (synapse )， 它 是 神经 与 神经 的 连 络 点 ， 它 可 以 是 抑 
制 的 或 者 是 刺激 的 。 抑 制 的 胞 突 缠 络 会 降低 所 传送 的 脉冲 ， 刺 激 的 胞 突 缠 络 则 会 加 强 所 传 
送 的 脉冲 。 当 外 界 刺激 由 神经 细胞 传递 到 大 脑 ， 大 脑 便 会 将 相应 指令 传递 至 相关 的 受 动 器 
Ceffectors) 做 出 反应 〈 例 如 : 手 的 皮肤 接触 到 烫 的 物体 手 会 立即 放 开 )， 适 当 的 反应 往往 
需要 经 过 反复 的 训练 和 记忆 才能 实现 。 如果 大 脑 受 到 损害 (例如 中 风 患 者 ), 便 需 要 借助 康 
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复 的 方式 ， 重 新 学 习 。 
图 14-3 描述 了 一 个 类 神经 元 模型 。 


图 14-3 ”类 神经 元 模型 


其 中 : 
半 称 为 神经 元 的 输入 (input)。 
W 称 为 连接 权 数 (weights )。 
b FK BIE (bias)， 有 偏 移 的 效果 。 
S 称 为 集成 单元 (summation)， 此 部 分 是 将 每 一 个 输入 与 连接 权 数 相 乘 后 做 一 加 总 的 
非 线性 函数 ， 有 数 种 不 同 的 形式 ， 其 


"E 


动作 。 
g( ) 称 为 活化 函数 Cactivation function)， 通 常 是 
目的 是 将 S 的 值 映 射 到 所 需 的 输出 ; 


了 称 为 输出 〈output)， 即 所 需 的 结果 。 


虚线 的 部 分 是 类 神经 元 ， 类 神经 网 络 的 训练 就 是 调整 连接 权 数 ， 使 其 变 得 更 大 或 是 更 
通常 由 随机 的 方式 产生 介 于 +1 一 -1 之 间 的 初始 值 。 连 接 权 数 可 视 为 一 种 加 权 效 果 ， 其 


4. 
小 ， 
值 越 大 ， 代 表 连 结 的 神经 元 越 容易 被 激发 ， 对 类 神经 网 络 的 影响 也 更 大 ， 反 之 ， 代 表 该 输 
入 对 类 神经 网 络 并 无 太 大 的 影响 ， 而 太 小 的 连接 权 数 通常 可 以 移 除 以 节省 计算 时 间 与 储存 


出 的 反 向 传递 网 络 模型 。 


空间 。 
图 14-4 显示 的 是 四 个 输入 与 一 个 输 
输入 层 隐藏 层 输出 层 
X 
X, n 
X 
X 


14-4 反 向 传递 网 络 模型 


+ 圆圈 代表 神经 元 。 
— 
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这 个 网 络 由 三 层 类 神经 单元 所 组 成 。 第 一 层 是 由 输入 单元 所 组 成 的 输入 层 ， 这 些 输 入 
单元 通过 固定 强度 的 链接 连接 到 特征 检测 单元 后 ， 再 通过 可 调整 强度 的 链接 连接 到 输出 层 
中 的 输出 单元 ， 最 后 ， 每 个 输出 单元 对 应 到 某 一 种 特定 的 分 类 。 调 整 链 接 强 度 的 过 程 就 是 
机 器 学 习 的 过 程 。 


14.2 类 神经 网 络 的 架构 与 训练 算法 


类 神经 网 络 的 架构 与 训练 算法 如 表 14-1 所 示 。 
表 14-1 类 神经 网 络 架构 与 训练 算法 


RO Og 训练 算法 

单 层 网 络 可 形成 两 个 决定 区 域 (decision region )， 而 此 二 区 域 由 一 超 平面 (hyperplane) 加 以 分 隔 
` 开 来 。 有 一 特殊 情形 就 是 ， 若 网 络 只 涉及 两 个 输入 ， 则 超 平面 便 退 化 成 一 条 直线 

多 层 网 络 在 输入 层 节点 与 输出 层 节点 间 多 了 一 层 或 多 层 的 隐藏 层 (hidden layer)， 即 输入 节点 没 


有 直接 接 往 输出 节点 


143 类 神经 网 络 的 特性 


类 神经 网 络 具 有 以 下 几 种 特性 ， 如 表 14-2 所 示 。 
表 14-2 类 神经 网 络 的 特性 


特 性 Wi — HB 
平行 处 理 随 着 超大 型 平行 处 理 的 发 展 ， 成 为 人 工 智能 中 最 活跃 的 研究 领域 


在 操作 上 具有 很 高 的 容错 度 ， 整 个 神经 网 络 都 会 参与 解决 问题 的 运作 。 即 
使 10% 的 神经 网 络 失效 ， 仍 能 照常 运作 
结合 记忆 特性 Cassociative | 又 称 内 容 寻 址 记忆 (content addressable memory)， 可 以 记忆 曾经 训练 过 的 


容错 性 (fault tolerance) 


memory) 输入 样式 以 及 对 应 的 理想 输出 值 
优化 (optimization) 处 理 非 算法 表示 的 问题 ， 算 法 密集 型 的 问题 


超大 规模 集成 电路 实现 神经 网 络 的 结构 具有 高 度 的 互相 连接 (interconnection)， 而 且 简 单 、 有 规 
(VLSI implementation ) 则 性 (regularity)， 容 易 用 超大 规模 集成 电路 CVLSD 来 完成 


14.4 ”类 神经 网 络 应 用 


由 于 类 神经 网 络 对 于 输入 映射 到 输出 有 记忆 与 学 习 的 功能 ， 并 且 对 缺失 的 输入 有 推断 
的 功能 ， 因 此 类 神经 网 络 可 运用 于 各 种 领域 中 ， 举 例如 表 14-3 所 示 。 
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表 14-3 ”类 神经 网 络 应 用 


领 域 具体 应 用 
控制 器 设计 与 系统 鉴别 
产品 质量 分 析 ( 例 : ene 珍珠 分 级 ) 
工业 应 用 机 电 设 备 诊断 ( 例 : 数值 电路 诊断 、 模 拟 IC 诊断 、 汽 车 引擎 诊断 ) 
化 工程 序 诊断 〈 例 : Vise drei 依 断 ) 
实验 数据 模型 建立 〈 例 : 复合 材料 行为 模型 建立 ) 
工程 分 析 与 设计 〈 例 : 钢 梁 结构 、 道 路 铺面 状况 评级 ) 
股票 投资 〈 例 : 大 盘 基 本 分 析 、 大 盘 技 术 分 析 、 个 股 技术 分 析 ) 
债券 投资 〈 例 : 债券 分 级 、 美 国 国库 券 利 率 预 测 ) 
商业 应 用 期 货 、 期 权 、 外 汇 投资 〈 例 :期 货 投资 、 期 权 投 资 、 外 汇 投资 ) 
商业 信用 评估 〈 例 : 贷款 信用 审核 、 信 用 卡 信用 审核 ) 
其 他 商业 应 用 〈 例 : 直销 顾客 筛选 、 不 动产 鉴 价 ) 
策略 管理 〈 例 市场 需求 预测 方法 的 选择 、 雇 工人 数 规划 ) 
管理 应 用 时 程 管理 ( 例 : 排 程 策略 选择 、 工 作 排 程 ) 
质量 管理 (pJ: 管制 图 判读 、 半 导体 制造 过 程 所 需 蚀 刻 时 间 估 计 ) 
影像 辨识 系统 ( 例 : 指纹 识别 、 卫 星 遥 测 影 像 分 析 、 医 学 影像 识别 ) 
信息 应 用 信号 分 类 
其 他 信息 应 用 〈( 例 : 雷达 信号 分 类 、 声 纳 信 号 分 类 ) 
医学 〈 例 ;皮肤 病 诊 断 、 头 痛 疾 病 诊断 、 心 脏 病 诊断 、 基 因 分 类 ) 
科学 应 用 化 学 〈 例 ;化 合 物化 学 结构 识别 、 蛋 白质 结构 分 析 ) 
其 他 科学 应 用 〈 例 : 体操 选手 运动 伤害 分 析 、 时 间 序 列 分 析 方法 选择 ) 
函数 模型 构建 ( 例 : 自来水 厂 水 质 处 理 操作 ) 
其 他 领域 的 应 用 预测 模型 构建 ( 例 : 电力 负载 预测 、 太 阳 黑 子 活动 预测 ) 
决策 模型 构建 〈 例 : 排 程 策略 选择 、 建 筑 结构 材料 选择 ) 
14.5 ”类 和 神经 网 络 优 缺点 
类 神经 网 络 的 优点 有 : 
G@ 类 神经 网 络 可 以 构建 非 线性 的 模型 ， 模 型 的 准确 度 高 。 
@ 类 神经 网 络 有 良好 的 推广 性 ， 对 于 缺失 的 输入 也 可 推断 得 到 正确 的 输出 。 
© 类 神经 网 络 可 以 接受 离散 或 连续 变量 作为 输入 ， 适 应 性 强 。 
@ 类 神经 网 络 可 应 用 的 领域 广泛 ， 建 模 能 力 强 。 
© 类 神经 网 络 具有 模糊 推论 能 力 ， 允 许 输入 变量 具有 模糊 性 ， 归 纳 学 习 比 较 难 具备 这 
一 能 力 。 
但 其 缺点 也 是 明显 的 : 
O 类 神经 网 络 因 为 其 中 间 变 量 ( 即 隐藏 层 ) 可 以 是 一 层 或 二 层 ， 数目 也 可 设 为 任意 数 
J 
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目 ， 而 且 有 学 习 速 率 等 参数 需要 设 定 ， 工 作 相当 费时 。 

@ 类 神经 网 络 用 帮 代 方式 更 新 键 结 值 与 阔 值 ， 计 算 量 大 ， 相 当 耗 费 计算 机 资源 。 

© 类 神经 网 络 的 解 有 无 限 多 组 ， 无 法 得 知 哪 一 组 的 解 为 最 佳 解 。 

D 类 神经 网 络 训练 的 过 程 中 无 法 得 知 需 要 多 少 神 经 元 个 数 , 太 多 或 太 少 的 神经 元 均 会 
影响 系统 的 准确 性 ， 因 此 往往 需 以 试 误 的 方式 得 到 适当 的 神经 元 个 数 。 

© 类 神经 网 络 因为 是 以 建立 数值 结构 〈 含 加 权 值 的 网 络 ) 来 学 习 ， 其 知识 结构 是 隐 性 
的 ， 缺 乏 解 释 能 力 ;， 而 归纳 学 习 以 建立 符号 结构 (如 决策 树 ) 来 学 习 ， 其 知识 结构 是 显 性 
的 ， 具 有 解释 能 力 。 

© 类 神经 网 络 并 非 人 脑 。 人 脑 有 更 复杂 的 结构 ， 不 仅 能 调整 连结 强度 的 大 小 ,还 可 以 
建立 新 的 连结 。 

© 类 神经 网 络 目前 仍 不 能 仿真 高 度 抽象 的 表示 方式 , 例如 符号 。 因 此 可 能 具有 很 差 的 
抽象 程度 ， 它 本 身 可 能 无 法 来 描述 高 层次 的 程序 。 

© 人 类 的 某 些 智慧 行为 并 不 是 平行 的 。 许 多 高 层次 的 推理 行为 在 本 质 上 似乎 是 有 顺 
序 的 。 

© 人 脑 是 一 个 相当 大 的 组 织 , 它 具 有 上 亿 个 神经 。 虽 然 在 较 小 的 系统 中 已 确定 可 以 达 
成 一 些 有 用 的 行为 ， 但 是 具有 更 加 智能 的 程序 所 需 的 神经 个 数 ， 可 能 远 超 过 实际 能 制作 在 
计算 机 上 的 数目 。 

虽然 有 这 些 困 难 ， 但 目前 计算 机 的 速度 越 来 越 快 ， 类 神经 网 络 的 训练 时 间 可 以 更 为 缩 
短 ， 相 信 在 未 来 类 神经 网 络 的 应 用 领域 将 会 更 为 广泛 ， 类 神经 网 络 具 有 相当 的 发 展 潜力 ， 
而 且 将 成 为 研究 的 一 个 重要 焦点 。 


14.6 Excel2007 类 神经 网 络 


Microsoft 类 神经 网 络 算法 使 用 迭代 方法 ， 将 多 层 网 络 的 参数 优化 ， 来 预测 多 个 属性 。 
它 可 用 于 类 别 属性 的 分 类 以 及 连续 属性 的 回归 。 

Step1: 数据 来 源 为 Microsoft 示例 数据 集 ， 为 2002 一 2007 年 自行 车 购买 的 数据 集 ， 建 
立 类 神经 网 络 模型 。 单 击 【 数 据 挖掘】 下 的 【高 级 】 按 钮 ， 弹 出 如 图 14-5 所 示 的 【创建 模 
型 向 导入 门 】 窗 口 ， 开 始 建立 数据 挖掘 模型 ， 单 击 【 下 一 步 】 按 钮 。 

Step2: 选择 挖掘 算法 的 步骤 ， 在 【算法 】 下 拉 列 表 框 中 选择 Microsoft 神经 网 络 ， 单 
击 【下 一 步 】 按 钮 ， 如 图 14-6 Pros. 

Step3: 在 选择 数据 行 的 步骤 时 ， 在 各 个 变量 后 方 有 一 栏 是 使 用 方式 选择 ， 用 户 可 以 选 
择 一 个 变量 的 使 用 方式 ， 包 括 输 入 、 仅 预测 、 输 入 和 预测 、 键 以 及 不 使 用 等 。 本 次 使 用 是 
和 否 购买 自行 车 (Purchased Bike) 作为 预测 变量 Y, 其 余 变 量 作为 解释 变量 建立 模型 ， 接 着 
单 击 【 下 一 步 】 按 钮 ， 如 图 14-7 所 示 。 
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LIIITDIINT NNNM o~ 
* 创建 模型 向 导入 门 


I» 


它 是 什么 2 


向 导 于 用 于 控 据 模型 的 算法 ， 指 定 算 潜 德 
用 的 参数 ， 以 及 指定 往 入 数据 中 要 使 用 的 列 ， 


广 释 

必须 连接 到 SQL Server Ane] Services Sig 
HET ae ffi ilst ITUR, i | 建 的 模型 可 以 录 

桂 久 性 的 或 岂 时 的 。 壤 要 创建 临 对 模型 ， 汰 酒 将 服 有 ” 国 


S 


图 14-5 【创建 模型 向 导 人 门 】 窗 口 


iix 
选择 控 据 算法 


选择 控 所 算法， 同时 也 可 以 设置 算 法 参数 


SED < 上- 步 (8) 


14-6 选择 挖掘 算法 
-jgixi 


选择 列 ç 
EJLA 
ET 月 法 mS 
Gender 输入 xj. 
Trcone 输入 
Children 输入 
Education WA 
Occupation 输入 
Hone Owner 输入 
Cars 输入 
Commute Distance 输入 Zi 
Region BA 4 
Age. 输入 El... 


c0 mw || 
图 14-7 选择 列 
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Step4: 在 如 图 14-8 所 示 的 【完成 】 窗 口中 ， 单 击 【 完 成 】 按 钮 ， 开 始 构建 数据 挖掘 
模型 。 


人 < 创建 挖 所 模型 向 导 ini xi 
完成 X 
结构 名 称 (3): EEN 
" x .zl1sx TE = 
结构 说 明 (D): iy Tos Sampie LR Tabie RM aj 
模型 名 称 (加: [182 - 神经 网 绍 
ESSE] = 
模型 说 明 (0): ts aa ü 
38m 
F OrRaeaS (R) 
T SH (U) 
F EMRE) 


CE my | 
图 14-8 【完成 】 窗 口 
Step5: 弹出 如 图 14-9 所 示 的 【浏览 】 窗 口 。 可 以 利用 变量 属性 来 了 解 购买 与 不 购买 在 


变量 属性 上 的 差异 。 
LET = || xl 


a—— 
Children 5 — ] 
Commute Distance 10* Niles pm 
Occupation Janageaent Eee 
Incone 77093. 742 - 149338. 195 m— 
Region Pacific E 
Education Partial High School L... 
Children 3 qe 
Income 10000.000 - 35186.258 mmm 
Education High School ==! 
Education Graduate Degree mm 
Commute Distance 2-5 Niles E z 


复制 到 Excel (E) 


149 【浏览 】 窗 口 


Step6: 利用 图 14-10 可 以 比较 购买 或 不 购买 的 两 个 群体 之 间 变 量 属性 的 差异 ， 如 果 想 
将 窗口 复制 到 Excel 窗口 下 操作 ， 可 以 单 击 【复制 到 Excell 按钮 。 


—16:— 


1i [69207 数据 挖 气 完 全 手册 


EE 
i E 
下 本 
fi [Bo 5 
al jj 82 TE 
TE: 
属性 48 [is wo c 倾向 于 Tes 5 
4 === 
Children 5 wasa 
Commute Distance 10* Niles mmm 
Income 77093. 742 - 149338. 195 
Region Pacific = B 
Occupation Management == 
Children 3 — s 
Education Partial High School mud 
Education Graduate Degree mmm 
Connute Distance 2-5 Niles mmm 
Income 10000.000 - 35185, 258 —— 
Education Bachelors mum 
Occupation Manual mmm 
Occupation Professional == 
Education High School — 
— 一 一 El 


FWE) Exce1(E) 


Step7: 


14-10 ”比较 变量 属性 的 差异 
将 图 表 复 制 到 Excel 中 ， 如 图 14-11 所 示 。 


Step8: 单 击 【数据 挖掘 】 中 的 【准确 性 图 表 】 按 钮 ， 弹 出 如 图 14-12 所 示 的 【准确 性 
图 表 向 导入 门 】 窗 口 ， 单 击 【下 一 
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14-11 ”复制 到 Excel 


步 】 按 钮 。 


A DMAddins SampleData [收复 的 ] - Microsoft Excel =e 

3) ma mA TEA zx ME w m | maps @- = x 
a] 3 sa b @ % 45 AJACA -^Wu 

He 清除 为 数据 ”分 5 €x x 预 xut 分 类 利润 d 管理 SQLDemo m ww 

BE 数据 - 分 区 类 计 分 É m 5 mm xe 图 g = WE (localhost) @ | Eh- 
| 数据 准备 usua Lnd ums (wm E: 帮助 | 
FERJE | 

El "| 
n D E F H 

i Tablo? - HAME | | 

2 神经 网 络 

3 Purchased Bike d 
4 Eid 值 [LLCESTNE-ETESTCUM- 

5 Cers K L m 

5 Children 5 E 

7 Cemmute Distance 10+ Miles LL 

8 Income 77093. 742 - 149338.195 E 

9 Region Pacific [ 

10 Occupation Management E 

11 Children E 

12 Education Partial High Sehool L 

13 Education Graduate Degree L3 

14 Commute Distance 2-5 Miles E 

15 Income 10000. 000 - 35186. 258 BEE 

16 Education Bachelors E 

17 Oceupation Manual = 

18 Occupation Professional E 
NAKU RATE nasa 539852 WE ol Milia o Hin BEA RERO a — —] [I 
C [esr (C £2 009. -) o” 


$12 类 神经 网 络 | NN 


5x 
> 准确 性 图 表 向 导入 门 


它 是 什么 ? zl 
准确 性 图 表 向 导 允 许 您 根据 Excel R. Excel 区 域 或 

Analysis Services PR 性 能 。 

如 果 模型 是 分 类 模型 ， 该 向 导 将 生成 一 个 提升 图 ， 显 示 与 假设 


模型 是 估计 模型， 该 向 导 将 生成 一 个 散 点 图 ， 显 示 测试 数据 的 
模型 估计 值 和 实际 值 。 


它 423 
š AzA (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 评估 的 模 


型 的 输出 列 和 测试 数据 源 。 该 向 导 还 允许 您 定义 测试 数 
据 列 和 模型 列 之 间 的 映射 。 


T- 不 再 显示 此 欢迎 页 W. 


14-12 【准确 性 图 表 向 导入 门 】 窗 口 
Step9: 在 如 图 14-13 所 示 的 【指定 要 预测 的 列 和 要 预测 的 值 】 窗 口中 ， 选 择 将 要 进行 
预测 的 挖掘 列 ， 本 次 选择 Purchased Bike 进入 图 表 ， 单 击 【 下 一 步 】 按 钮 。 


指定 要 预测 的 列 和 要 预测 的 值 


要 预测 的 挖掘 列 QD : 

要 预测 的 值 ( 劝 : 

[说 明 
此 任务 用 于 分 析 模型 “Table2 - MEME” ERI 
导 下 一 页 所 选 测试 数据 预测 “! 


Purchased Bike" 时 
的 性 能 。 此 任务 会 生成 图 表 报 表 ， 说 明 模 型 
“Table2 - 神经 网 络 ”在 预测 “Purchased Bike” 
时 的 准确 性 。 


此 图 表 说 明正 确 预测 数 随 着 模型 分 析 的 事例 数 增 大 
To. 


14-13 ”选择 要 预测 的 挖掘 列 


Step10: 复制 图 表 到 Excel 中 ， 如 图 14-14 所 示 。 
Stepll: 单 击 【 数 据 挖 掘 】 中 的 【分 类 和 托 阵 】 按 钮 ， 弹 出 如 图 14-15 所 示 的 【分 类 矩阵 
向 导入 门 】 窗 口 ， 单 击 【下 一 步 】 按 钮 。 
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B c D E F 
模型 “Table2 - 神经 网 络 " 的 准确 性 图 表 


TAWIP “Purchased Bike”= No 


"Tablez -神经 网 阁 "模型 提升 121.89% 


1*5 ç ° = 
so% 


e 
一 一 Table2 -HHMH E 
一 一 理想 档 型 


总 体 正确 百分比 
z 


ax 
ws A 
Er ° 


o% ELI 2% n% ax vx ex n* 0% s% 100% 
总 体 到 分 比 


EETTI-] ——. 


mad 


14-14 ”复制 到 Excel 


> 分 类 矩阵 向 导入 门 


> 


它 是 什么 ? 

分 类 矩阵 向 导 多 许 您 根据 Excel X. Excel 区 域 或 
Analysis Services 查询 的 测试 数据 评估 现 有 模型 的 性 能 。 
该 向 导 比较 将 模型 应 用 于 测试 数据 的 结果 和 测试 数据 的 实际 
值 。 该 向 导 在 完成 时 将 生成 同时 显示 正确 分 类 和 错误 分 类 的 矩 


阵 。 


它 做 些 什 么 ? 
该 向 导 人 允许 您 从 服务 器 上 可 用 的 模型 列表 中 选择 要 评估 的 模 


型 、 模 型 的 输出 列 和 测试 数据 源 。 该 向 导 还 允许 您 定义 测试 数 
据 列 和 模型 列 之 间 的 映射 。 


K 


注释 
HERES SOL Server Analvsis Services SEREA keti 


三 不 再 显示 此 欢迎 页 (D) . 


¿t 0 | [Fw o] _ ma P 


14-15 【分 类 和 矩阵 向 导入 门 】 窗 口 


Step12: 在 【要 预测 的 挖掘 列 】 下 拉 列 表 框 中 ， 选 择 要 预测 的 挖掘 列 ， 即 自行 车 购买 
作为 分 析 变量 如 图 14-16 所 示 ， 单 击 【 下 一 步 】 按 钮 。 
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ojx] 
指定 要 预测 的 列 B 
SAANEN W: 本 
v 以 百分比 显示 结果 (B) 
Iv 以 计数 显示 结果 () 
说 明 
此 任务 用 于 分 析 模 型 “Table2 - 神经 网 络 ”在 对 < A B G 
向 导 下 一 页 所 选 测试 数据 预测 “Purchased Bike” 1 Counts of correct/incorrect cla: 
时 的 性 能 。 此 任务 会 生成 矩阵 报表 ， 说 明 模 型 š 
"Table2 - 神经 网 络 ” 在 预测 “Purchased 9 O(Actual) 1(Actual) 
Bike” 时 进行 的 正确 分 类 和 错误 分 类 .。 10 0 683 2974 
11 1 2499 6158, 


此 给 阵 说 明 “purchased Bike” 列 的 每 个 不 重 | 12 | 
复 状态 在 测试 数据 中 的 出 现 次 涩 以 及 在 “Table2 - | 13 Correct 853 
神经 网 络 ” 的 预测 结果 中 的 出 现 次 数 。 i 


正确 的 预测 显示 在 分 类 矩阵 的 主 对 角 线 上 . 不 
在 此 矩阵 主 对 角 线 上 的 非 零 值 表示 存在 一 个 或 多 个 
moreg 到 


E 14-16 ”选择 要 预测 的 挖掘 列 
Step13: 在 如 图 14-17 所 示 的 【指定 关系 】 窗 口中 ， 选 择 变 量 间 关系 ， 单 击 【 完 成 】 


按钮 。 


ipi xl 

指定 关系 FI 
指定 模型 列 和 输入 列 之 间 的 关系 : 
挖掘 列 | 表 列 

aaa zi 
Cars [Cars 到 
Children [Children ET 
Connute Distance Connute Distance x 
Education Education mi 
Gender [Gender 到 
Hone Owner Hone Owner 到 
Incone [mme El 
Marital Status Marital Status ET 
Occupation Occupation x 
Purchased Bike [Purchased Bike x 
Region Region =l 


14-17 【指定 关系 】 窗 口 
Step14: 产生 分 类 和 矩阵， 并 复制 到 Excel 中 ， 如 图 14-18 所 示 。 
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|N | ExcSL2007 iE =m 


(fs DMAddins SampleData [修复 的 ] - Microsoft Excel -3x 
e3) @- = x 
ik Dp k | 
SQLDpemo m | * 
(localhos) œ | m 
3 L- 
M - El 模 到 “Table2 一 esa HF) “Purchased Bike” 的 正确 /错误 分 类 的 计数 加 | 
B E EE S) ig 
1 [模型 "Tablez - ed Bike HEA, WRIEBUE 
2 | 行 对 应 于 预测 值 
3 
4 
5 Emi: 66.80 9€ 668 
6 错误 分 类 总 计 : 33.20% 332 
y 
8 百分比 结果 
9 [= No(Sc Is) = Yes(Sc sr] | 
10 No 66.47 & 32.85 % 
11 Ves 33.53% 67.15 & 3 
12 
13 正确 66.47% 67.15% 
14 分 类 错误 33.53% 32.85% 
[= ndk Yes(Sc s] >| 
345 158 
174 323, 
345 323 
174. 158 


图 14-18 ”复制 到 Excel 
Step15: 单 击 【 数 据 挖 气 】 中 的 【利润 图 】 按钮 ， 弹 出 如 图 14-19 所 示 的 【利润 图 向 导 
入 门 】 窗 口 ， 单 击 【 下 一 步 】 按 钮 。 
=loj xi 
* 利润 图 向 导入 门 


» 


它 是 什么 ? 

利润 图 向 导 允 许 您 根据 Excel #. Excel 区 域 或 
Analysis Services 查询 的 测试 数据 为 现 有 分 类 模 
REACH. 利润 图 显示 与 控 气 模型 的 使 用 相关 联 
的 估计 利润 增长 情况 ， 以 确定 在 商业 应 用 场景 中 公司 
应 与 哪些 客户 联系 。 该 图 的 Y 轴 代表 利润 ，X 轴 代 
表 公 司 联系 的 客户 总 体 的 百分比 。 利 润 图 通常 会 显示 
利润 的 增 减 情况 ， 即 利润 在 到 达 一 个 转折 点 之 前 持续 
增长 ， 但 在 该 转折 点 后 ， 随 着 联系 的 客户 个 体 数量 增 
多 ， 利 润 反而 减少 。 一 


TREA? 
Ba its (从 服务 器 上 可 用 的 模型 列表 中 ) 选 择 要 
RERU. HIRURGA. 可 往 测 而 | 的 日 标准 态 和 


r 不 再 显示 此 欢迎 页 (D) -. 


图 14-19 【利润 图 向 导入 门 】 窗 口 
Step16: 在 如 图 14-20 所 示 的 【指定 利润 图 参数 】 窗 口中 ,选择 要 预测 的 挖 气 列 ， 单 击 
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【下 一 步 】 按 钮 。 


[PEE 


指定 利润 图 参数 g 


要 预测 的 挖掘 列 (WD : E 

SRI KB (V): [no Ej 

目标 总 体 (D: [50000 E 

固定 成 本 (BD) : [5000.00 E: 

单项 成 本 (也 : bo 2e] 

单项 收入 (8 : 15.00 z 
说 明 


此 任务 通过 使 用 “Table2 - 神经 网 络 ” 模 型 对 所 产 — 4| 100 

生 的 利 洞 进行 建 模 ， 从 而 在 类 似 于 向 导 下 一 页 所 选 测 

试 数据 的 数据 中 识别 事例 “Purchased so 
° 


Bike" = “No” . 


此 任务 假设 将 模型 预测 应 用 于 实际 数据 会 产生 
(采用 建议 值 的 ) 单 项 成 本 以 及 固定 成 本 。 + 


ET m |, 
图 14-20 ”选择 要 预测 的 挖掘 列 
Step17: 在 如 图 14-21 所 示 的 【指定 关系 】 窗 口中 ， 选 择 变量 间 关 系 ， 单 击 【 完 成 】 


按钮 。 

克 利润 图 - [Dl xl 

in # 
指定 模型 列 和 输入 列 之 间 的 关系 : 
挖掘 列 | 表 列 
Age Age 到 
Cars [Cars El 
Children [Children 到 
Commute Distance Commute Distance 到 
Education Education 到 
Gender |Gender x 
Hone Owner Hone Owner 到 
Incone Incone 到 
[Marital Status [Marital Status x 
Occupation Occupation 到 
Purchased Bike Purchased Bike 到 
Region Region x 

< 上 一 步 (B) 完成 (E) 取消 


图 14-21 ”选择 变量 间 关系 
Step18: 将 利润 图 复制 到 Excel 中 ， 如 图 14-22 所 示 。 


7173 


1174/ 


目标 总 体 :~Purchased Bike”= No 


5000| 

3 

15) 

tU HUC 16.83% 
Table2 - 神经 网 络 


图 14-22 复制 到 Excel 


m c Ln. 有 
模型 "Tablez -神经 网 络 "的 利润 图 


第 1S 章 时 间 序 列 分 析 


1S.1 基本 概念 


观察 值 时 常 依 时 间 的 变化 而 发 生 一 系列 有 规则 的 变化 ， 这 种 数据 称 为 时 间 序 列 数据 ， 
而 对 这 种 数据 的 分 析 方 法 称 为 时 间 序 列 分 析 法 。 人 类 社会 的 各 种 活动 所 产生 的 数据 如 果 以 
发 生 的 时 间 来 区 分 ， 则 可 分 为 横 截 面 数 据 (cross section data) 及 时 间 序 列 数据 (time series 
data) 两 种 。 横 截面 数据 是 指 发 生 于 同一 时 期 的 数据 ， 时 间 序 列 数据 指 的 是 同一 个 体 的 同 
一 变量 在 不 同时 点 或 不 同时 期 的 数据 ， 包 括 逐 日 的 日 数据 、 周 数据 、 月 数据 、 季 数据 及 年 
数据 等 。 例 如 : 1990 年 10 月 3 日 至 2006 年 8 月 4 日 的 上 海 A 股指 数 数据 。 时 间 序 列 分 析 
的 目的 在 于 观察 、 分 析 过 去 的 数据 ,以 预测 未 来 。 本 章 将 介绍 几 种 分 析 时 间 序 列 数据 的 方法 。 

预测 方法 可 分 为 定量 法 与 定性 法 两 种 。 定 量 的 预测 方法 是 分 析 某 个 时 间 序 列 或 可 能 与 
其 相关 的 其 他 时 间 序 列 的 历史 数据 的 方法 。 若 预测 的 方法 仅 限 于 使 用 该 序列 的 历史 数据 值 ， 
则 这 种 方法 称 为 时 间 序列 法 。 若 在 定量 预测 方法 中 所 使 用 的 历史 数据 涉及 其 他 的 时 间 序 列 ， 
则 应 使 用 因果 法 。 多 元 回归 分 析 即 为 因果 预测 法 。 定 性 预测 方法 通常 是 运用 专家 的 判断 ， 
这 些 程序 的 优点 是 可 使 用 在 无 历史 数据 可 供 参考 的 情形 ， 本 书 将 在 后 面 讨 论 这 种 程序 。 

时 间 序 列 分 析 已 被 各 界 广泛 采用 ， 其 主要 目的 为 : 

QD 对 时 间 序 列 未 来 趋势 作 预 测 。 

@ 将 时 间 序 列 分 解 成 主要 趋势 成 分 (trend components )， 季 节 变 化 成 分 (seasonal 
component). 

@ 对 理论 性 模型 与 数据 进行 拟 合 优 度 检 验 , 以 讨论 模型 是 否 能 正确 地 表示 所 观测 的 现 
象 ， 如 一 些 常见 的 经 济 模型 。 

大 部 分 时 间 序 列 分 析 法 都 先 假设 时 间 序 列 存在 着 某 种 数学 结构 ， 然 后 在 此 结构 下 延伸 
推导 出 分 析 结果 来 。 一 个 时 间 序 列 常 被 假设 为 平稳 型 (stationary)， 或 者 是 通过 某 些 方法 使 
其 平稳 ， 最 常用 的 方法 是 差分 法 (differencing)。 在 探讨 统计 模型 是 否 合适 之 前 首要 工作 是 
先 诊断 时 间 序 列 的 性 质 是 否 符合 所 使 用 方法 的 假设 前 提 。 然 而 ， 要 检查 一 个 时 间 序 列 是 否 
符合 时 间 序 列 分 析 的 假设 前 提 是 一 项 艰难 的 工作 ， 因 此 实证 分 析 时 经 常 以 图 形 或 以 某 些 统 
计量 对 时 间 序 列 的 基本 性 质 做 初步 的 判断 。 

在 经 济 及 商业 方面 , 有 许多 应 用 时 间 序 列 分 析 法 的 实际 例子 , 如 国民 生产 总 值 (GNP)、 
失业 率 与 股价 等 。 而 人 们 所 关心 的 主题 是 去 了 解 时 间 序 列 的 行为 ， 不 仅 是 时 间 序 列 本 身 与 
过 去 的 自我 相关 ， 还 包括 与 其 他 时 间 序 列 的 相关 程度 。 这 些 时 间 序 列 最 重要 的 共同 特征 是 
它们 很 少 重复 出 现 。 一 般 可 利用 随机 变量 x 构建 时 间 序 列 x, zz, x3…, 但 是 在 时 间 序 列 的 情 
况 下 这 些 变 量 xix, x3,… 却 仅 能 观测 一 次 ， 这 是 与 其 他 统计 分 析 法 不 同 的 地 方 。 

经 济 与 商业 时 间 序 列 的 另 一 项 难题 是 时 间 序 列 的 结构 常 因 政 策 变动 或 偶发 事件 而 改 
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变 。 配 合 过 去 对 时 间 序 列 的 经 验 ， 有 大 量 的 文献 探讨 时 间 序 列 的 理论 观点 。 在 20 世纪 
40 年 代 由 Norbort Wiener 和 Andrei Kolmogorov 提出 平稳 型 时 间 序 列 的 基本 理论 ， 而 目前 
时 间 序 列 模型 的 研究 也 已 转向 较 具 有 应 用 性 的 课题 方面 ， 对 此 项 转变 有 重要 贡献 的 学 者 有 
Whittle, Quenuille, Rosenblatt, Parzen, Hannan, Box, Grenander, Rozanov, Granger, 
Tiao 等 。 

在 20 世纪 60、70 年 代 ， 一 份 工程 文献 提出 了 新 的 时 间 序 列 的 技巧 ， 文 献 的 作者 是 
Kalman Kailath、Lennart Ljung 和 B.D.O. Anderson, 他们 所 强调 的 时 间 序 列 分 析 法 与 统计 学 
家 及 经 济 学 家 的 略 有 不 同 。 由 于 工程 学 的 研究 数据 经 常 是 庞大 的 ， 所 以 他 们 对 于 过 滤 法 

(Cfilting)、 平 滑 法 (smoothing) 及 计算 法 (algorithm ) 的 发 展 很 有 兴趣 。 另 一 方面 ， 统 计 
学 家 则 花 了 许多 心思 在 模型 的 构建 上 ， 参 数 的 估计 和 数据 的 拟 合 优 度 检验 ， 其 在 推导 的 过 
程 中 仅 需 要 适中 的 观测 值 个 数 ， 而 不 像 工 程 学 那样 庞大 。 

从 此 应 用 时 间 序 列 分 析 法 产生 了 两 个 分 支 ,第 一 种 是 着 重 于 时 间 序 列 的 谱 密 度 (spectral 
density) 及 频 域 分 解 ( frequency domain decomposition ) 的 频 域 法 ( frequency domain 
approach)， 这 是 一 门 运用 非 参 数 统计 的 时 间 序 列 分 析 方 法 ， 常 应 用 于 自然 科学 方面 ， 如 工 
程 学 和 物理 学 ， 但 在 经 济 学 方面 也 开始 受到 重视 。 由 频率 定义 分 析 所 得 的 结果 常 被 视 为 系 
统 中 基本 的 变动 。 

第 二 种 时 间 序 列 分 析 法 则 是 利用 时 间 序 列 的 参数 模型 (parametric modeling) 的 arima 

(autoregressive integrated moving average) 模型 及 较为 复杂 的 多 变量 arma 模型 ， 而 arma 
模型 则 包含 两 个 重要 的 子 模型 ar Cautoregressive) 和 ma (moving average) 模型 。 

当 利 用 ARMA 模型 对 一 平稳 型 时 间 序 列 建 模 时 , 即 是 利用 其 参数 的 结构 来 描述 数据 的 
记忆 型 态 。 此 法 则 能 在 建 模 时 仅 需 利用 有 限 个 参数 ， 相 较 于 非 参 数 的 光谱 密度 法 来 说 可 使 
参数 的 估计 更 合理 可 行 ， 且 需要 的 观测 值 个 数 也 较 少 。 而 利用 参数 建 模 时 更 提供 了 一 种 由 
历史 数据 预测 时 间 序 列 未 来 趋势 的 实用 方法 。 

此 外 ， 可 利用 差分 及 过 滤 法 对 非 平 稳 型 Cnonstationary) 时间 序 列 建 模 。 在 时 间 序 列 建 
模 时 ， 最 重要 的 观念 是 如 何 利用 过 去 的 数据 来 判定 一 个 变量 的 未 来 走向 及 不 同 变量 间 的 同 
期 Cconcurren 或 前 后 期 (lead-lag) 的 关系 。 

相 较 于 过 去 传统 的 Box 和 Jenkins 单 变量 时 间 序 列 模型 ， 近 来 已 有 许多 学 者 对 多 变量 
时 间 序 列 模型 进行 研究 ， 例 如 Box 和 Tiao (1982) 及 Tiao 和 Tsay (1983). 

多 变量 时 间 分 析 法 的 研究 含有 两 种 目的 : 一 是 加 入 另 一 个 相关 的 时 间 序 列 后 ， 更 能 解 
释 过 去 仅 由 单 变量 建 模 的 不 足 之 处 ， 另 一 个 目的 则 是 通过 分 析 一 个 时 间 序 列 与 另 一 个 时 间 
序列 的 关系 ， 借 以 获得 时 间 序 列 间 的 相关 信息 ， 来 增进 对 整体 系统 的 了 解 。 

近 15 年 来 在 非 线性 及 多 变量 时 间 序 列 分 析 法 的 领域 中 有 许多 新 的 进展 , 较为 重要 的 研 
究 课题 包括 ARCH Models, Threshold AR Model. Co-Integration, Reduced Rank Models, 
Scalar Component Models 和 State-Space Models。 在 本 书 中 引用 了 Box 在 1980 年 提出 的 高 
级 建 模 技术 并 且 探 究 以 递归 方式 对 时 间 序 列 数据 构建 模型 。 

时 间 序 列 具 有 如 下 几 个 特性 : 

QD 时 间 序 列 中 的 观测 值 由 四 个 影响 成 分 组 成 ， 分 别 是 长 期 趋势 (trend)、 循 环 变动 

Ccyclical fluctuation)、 季 节 变 动 (seasonal fluctuation )、 不 规则 变动 ( irregular fluctuation). 
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因此 进行 时 间 序列 分 析 时 应 先 将 这 四 个 成 分 分 解 出 来 ， 以 了 解 各 个 成 分 的 影响 。 

@ 时 间 序 列 的 各 个 观测 值 通常 互 有 关联 ， 只 是 时 间 相 隔 越 长 ， 关 联 越 小 。 

@ 因 分 析 需 要 , 不 同时 间 单位 的 时 间 序 列 数据 , 可 以 转换 成 相同 时 间 单 位 的 时 间 序 列 。 
例如 ， 年 数据 转换 为 月 平均 数据 。 

@ 时 间 序 列 应 依 时 间 先 后 顺序 排列 ， 不 可 任意 变更 。 

@ 时 间 序 列 的 时 间 单 位 可 以 为 年 、 季 、 月 、 周 、 日 等 ,应 划分 为 相同 间隔 的 时 间 单 位 。 

时 间 序 列 的 数据 在 分 析 前 ， 须 将 数据 按时 间 次 序 ， 以 纵 轴 为 变量 ， 横 轴 为 时 间作 图 ， 
此 图 称 为 时 间 序 列 图 ， 如 图 15-1 所 示 。 从 此 图 中 可 大 致 看 出 时 间 序 列 的 特性 ， 即 使 相似 的 
频数 分 布 图 ， 时 间 序 列 的 变动 也 可 能 不 同 ， 如 4、 两 时 间 序列 虽 有 相似 的 频数 分 布 ， 但 
其 时 间 序 列 的 变化 并 不 相同 。 


15-1 时 间 序 列 与 频数 分 布 图 


15.2 ”时间 序列 的 成 分 


通常 时 间 序 列 是 由 四 个 成 分 一 一 趋势 、 循 环 、 季 节 与 不 规则 组 成 。 

1. 趋势 成 分 (trend component) 

时 间 序 列 分 析 的 测量 数据 ， 可 取 自 于 每 一 小 时 、 天 、 星 期 、 月 或 年 ， 或 任何 其 他 有 规 
则 的 区 间 ， 限 制 序列 的 记录 值 是 来 自 相等 的 区 间 ， 若 是 不 相等 区 间 的 观察 值 的 处 理 问 题 ， 
则 超出 了 本 书 的 范围 。 虽 然 一 般 的 时 间 序 列 数据 显示 随机 的 上 下 变动 ， 但 就 长 期 来 看 ， 它 
仍然 逐渐 地 增高 、 降 低 或 在 一 定 范围 内 变动 ， 这 种 逐渐 变动 的 时 间 序 列 ， 经 常 是 由 于 长 期 
因素 所 导致 的 ， 例 如 入口 的 变动 、 人 口 统计 上 的 特征 改变 、 工 业 技术 的 改进 等 ， 称 之 为 时 
间 序 列 的 趋势 。 

2. 循环 成 分 (cyclical component) 

当时 间 序 列 在 长 期 间 里 显示 某 种 趋势 时 ， 不 能 预期 所 有 时 间 序 列 的 未 来 值 将 落 在 趋势 
线 上 。 事 实 上 时 间 序 列 的 观测 值 经 常 落 在 趋势 线 上 方 与 下 方 。 落 在 趋势 线 的 上 方 与 下 方 的 
序列 点 的 任何 周期 超过 一 期 的 有 规则 的 模型 皆 属 于 时 间 序 列 的 循环 成 分 。 
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许多 时 间 序 列 的 连续 观察 值 规 则 地 落 于 趋势 线 的 上 方 与 下 方 ， 而 显示 循环 的 现象 。 一 
般 相信 在 经 济 上 多 期 的 循环 变动 ， 可 以 用 这 种 时 间 序 列 的 成 分 来 代表 。 

3. 季节 成 分 (seasonal component) 

虽然 时 间 序 列 趋势 与 循环 成 分 往往 通过 分 析 多 年 的 历史 数据 才能 辨认 ， 但 有 许多 时 间 
序列 在 一 年 内 即 显 示 周 期 性 的 规则 变动 。 例 如 ， 游 泳池 的 制造 商 可 以 预测 其 在 秋冬 季 的 月 
份 中 ， 销 售 收入 较 低 ， 在 春 夏季 的 月 份 则 销售 收入 较 高 。 这 种 随 着 季节 的 影响 而 变动 的 时 
间 序 列 成 分 ， 称 为 季节 成 分 。 一 般 都 认为 时 间 序 列 的 季节 变动 是 在 一 年 之 内 ， 然 而 常用 它 
来 分 析 一 年 之 内 的 连续 重复 数据 。 例 如 每 天 的 交通 流量 也 显示 了 一 天 内 的 “季节 ”情况 ， 
在 尖峰 时 间 为 最 拥挤 ， 白 天 的 其 他 时 间 及 傍晚 流量 为 中 等 ， 而 从 午夜 至 凌晨 则 流量 为 最 低 。 

4. 不 规则 成 分 Canomial component) 
时 间 序 列 的 不 规则 成 分 就 是 当 完全 以 趋势 、 循 环 及 季节 等 分 量 来 说 明 此 时 间 序 列 时 ， 
用 来 解释 实际 的 时 间 序 列 值 与 所 预期 的 序列 值 之 间 的 离 差 的 残 差 因素 ， 它 是 用 来 说 明 时 间 
序列 的 随机 变动 。 时 间 序 列 的 不 规则 成 分 ， 常 是 由 短期 不 可 预知 或 非 重复 的 因素 所 引起 的 ， 
它 是 用 来 说 明 时 间 序 列 的 随机 变动 ， 所 以 无 法 预测 ， 更 无 法 预知 它 对 该 时 间 序列 的 冲击 。 

时 间 序 列 的 四 个 组 成 分 子 的 关系 可 分 为 两 种 模型 。 

(1) 相 加 模型 (additive model): Y=T+S+C+I 

@ 模型 中 所 有 的 数值 均 以 原始 单位 表示 。 

© iS >0 表示 季节 变动 对 了 有 正 的 影响 。 

@ # C >0 表示 景气 循环 正在 衰退 。 

@ 若 1>>0 表 示 有 些 随机 事件 对 Y 有 正 的 影响 。 

相 加 模型 的 最 大 缺点 是 假设 各 个 组 成 部 分 彼此 独立 ， 然 而 现实 生活 中 ， 任 一 个 部 分 变 
动 有 时 会 影响 其 他 部 分 的 变动 ， 因 此 在 经 济 活动 中 ， 此 模型 并 不 适合 。 

(2) 相 乘 模型 (multiple model): Y-TxSxCx1 

@ 模型 中 了 以 原始 单位 表示 ，C、S、7 以 百分比 表示 。 

Q C. S. 1 均 大 于 1 时 表示 相对 效果 高 于 趋势 值 ， 若 小 于 1 时 表示 相对 效果 低 于 趋 
势 值 。 

@ 相 乘 模型 假设 各 个 组 成 部 分 彼此 相互 影响 ， 非 独立 。 

@ 由 于 季节 变动 只 发 生 于 一 年 ， 因 此 对 于 年 数据 的 相 乘 模型 为 Y=Tx Cx7。 


153 时间 序列 数据 的 图 形 介绍 


图 15-2 一 图 15-7 表示 一 些 时 间 序 列 数据 的 图 形 。 图 15-2 为 连续 观测 一 项 化 学 反应 的 
70 笔 产量 的 观测 值 ， 这 70 笔 的 时 间 序列 数据 的 明显 特征 就 是 在 一 固定 的 水 平 为 50 左右 ， 
且 在 20—80 的 固定 限度 内 变动 , 大 致 上 序列 不 论 何 时 都 维持 相同 的 行为 ， 除了 在 实验 过 
程 中 发 生 基 本 的 改变 之 外 ， 对 此 类 时 间 序 列 的 预测 可 以 序列 的 平均 值 为 准 。 在 此 例 中 ， 所 
预测 的 产量 的 平均 水 平 应 为 50， 且 都 在 20—80 之 间 。 若 再 仔细 观察 序列 的 行为 会 发 现 一 
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个 趋势 : 若 观测 值 大 于 平均 数 ， 则 下 一 个 观测 值 即 小 于 平均 数 ， 反 之 亦 然 ， 于 是 两 两 邻近 
的 观测 显示 负 相 关 ， 如 果 适 当 利用 此 相关 性 可 使 预测 更 精确 。 

例如 : 最 后 一 个 观测 值 小 于 平均 水 平 ， 于 是 可 预测 下 一 个 观测 值 应 大 于 平均 水 平 ， 而 
再 下 一 个 观测 值 应 小 于 平均 水 平 ， 如 此 循环 下 去 ， 只 要 能 够 找到 一 个 合适 的 概率 模型 
(probabilistic model) 来 描述 观测 值 在 时 间 上 的 相依 性 ， 必 然 能 使 预测 值 更 精确 。 然 而 如 
图 15-2 所 示 的 平稳 型 序列 在 商业 应 用 领域 很 少 出 现 ， 较 常 遇 到 的 数据 类 型 是 如 图 15-3— 
图 15-5 这 样 的 数据 。 

图 15-3 是 每 个 月 的 电 冰 箱 需 求 量 ， 图 15-4 为 美国 1800—1981 年 每 年 的 利率 及 物价 指 
数 ， 相 比 于 图 15-2 的 化 学 反应 的 实验 数据 ， 这 些 时 间 序 列表 现 了 一 种 随机 游 走 的 行为 ， 此 
种 时 间 序 列 称 为 无 定向 型 序列 或 非 平稳 型 序列 (non-stationary series)。 由 于 此 种 时 间 序 列 
的 平均 水 平 本 身 随 时 间 改 变 ， 因 此 无 法 再 以 一 个 固定 的 值 来 预测 未 来 的 变动 。 

此 种 时 间 序 列 的 模型 不 同 于 图 15-2 时 间 序 列 的 模型 ， 当 然 预测 的 方法 也 有 所 不 同 。 
图 15-5 是 由 美国 联邦 储备 委员 会 (Federal Reserve Board) 出 版 的 美国 月 度 工 业 生产 指数 ， 
由 图 发 现 该 时 间 序 列 的 行为 有 持续 上 升 的 趋势 ， 所 以 可 拟 合 出 一 条 直线 来 拟 合 数据 。 然 而 
若 仔 细 观 察 数 据 走 势 可 画 出 三 条 平行 直线 ， 第 一 条 表现 的 区 间 为 1947 一 1960 年 , 第 二 条 为 
1961—1975 年 ， 第 三 条 则 为 1975 一 1993 年 。 所 以 如 何 找 出 一 种 合适 的 概率 模型 来 拟 合 这 
些 平行 线 ， 并 且 由 模型 如 何 去 预 测 未 来 的 数值 是 需要 探讨 的 。 

最 后 一 个 例子 ,图 15-6 是 每 月 国际 航线 旅客 总 数 取 对 数 得 到 的 数据 ,图 15-7 是 Magnavox 
彩色 电视 每 月 销售 量 的 数据 ， 这 些 数据 最 明显 的 特征 是 具有 季节 性 的 变化 行为 ， 而 大 部 分 
的 原始 商业 数据 常见 这 种 季节 性 变化 的 行为 , 季节 性 的 行为 清楚 地 表现 出 每 隔 12 个 月 数据 
的 相依 性 ， 因 此 在 构建 合适 的 预测 模型 时 ， 不 仅 要 考虑 每 个 月 间 的 相关 性 ， 更 需 考 虑 同一 
月 份 在 不 同年 之 间 的 相关 性 。 

上 述 的 各 种 例子 说 明 不 同类 型 的 时 间 序 列 数据 需要 创建 不 同类 型 的 模型 ， 并 且 没 有 任 
何 一 个 预测 模型 能 够 适合 所 有 的 时 间 序 列 ， 所 以 在 上 述 的 例子 中 ， 所 需 做 的 就 是 建立 一 个 
E 够 合适 地 表达 数据 时 间 相 依 关 系 的 概率 模型 ， 一 旦 建立 此 概率 模型 后 ， 便 可 做 有 效 的 预 
测 了 。 
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图 15-2 ”化 学 反应 产 出 量 〈 每 次 观测 间隔 两 小 时 ) 
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月 度 电 冰箱 需求 量 
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图 15-3 ”美国 电 冰 箱 月 度 需求 (+) (1957 £ 6 H—1961 £ 9 HD 
美国 年 度 利率 (1800-1981) 基点 为 100 
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图 15-4 美国 年 度 利率 与 物价 指数 
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美国 月 度 工 业 产值 指数 
170 
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1947 1950 1953 1956 1959 1962 1965 1968 1971 1974 1977 1980 1983 1986 1989 1992 


图 15-5 ”美国 月 度 工业 产值 指数 


(1947 年 1 月 一 1993 年 12 A) 
航空 旅客 人 数 


12 36 60 84 108 132 
月 份 1949 年 1 月 至 1960 年 12 月 ) 
对 数 转 换 后 航空 旅游 人 数 
对 数 化 的 航空 旅客 人 数 
6.36 
5.92 
5.48 
5.84 E 
4.68 


12 24 36 48 68 72 84 96 108 120 132 
Hf (1949461 H 819605812) 


* 取 自 Box-Jenkins(1976) 序 列 G. 
图 15-6 美国 月 度 国际 航空 旅游 人 数 
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Magnavox 有 牌 彩色 电视 机 月 度 销售 坚 


1976.12 1977.12 1978.12 1979.12 1980.12 1981.12 1982.12 1983.12 


15-7 Magnavox 牌 彩 色 电视 机 月 度 销 售 量 (+) (1976 年 1 H—1983 # 12 A) 
总 结 时 间 序 列 的 形态 大 致 包含 下 述 五 种 : 
@ 平稳 型 (stationary)。 
@ 无 定向 型 (drifting )。 
© 趋势 型 (trend), 
@ 季节 型 (seasonality)。 
© 外 部 影响 型 (exogenous effect). 


15.4 利用 平滑 法 预测 


本 节 将 讨论 适 于 无 明显 趋势 、 循 环 或 季节 效应 的 时 间 序列 的 预测 方法 。 在 这 种 情况 下 
预测 方法 的 目的 是 以 平均 过 程 “ 修 匀 ” 时 间 序列 的 不 规则 成 分 。 首 先 考虑 移动 平均 。 

1， 移动 平均 

移动 平均 法 是 将 最 近 天 期 的 时 间 序列 数据 加 以 平均 ,以 所 得 平均 值 预测 下 一 期 的 数据 。 
此 种 预测 方法 很 简单 ， 适 用 于 不 明显 长 期 趋势 与 季节 循环 变动 的 时 间 序 列 数据 。 

移动 平均 的 计算 公式 如 下 ; 


n? 


1 
x sT Atn 
然而 此 种 方法 的 准确 性 ， 则 必须 用 预测 值 与 观测 值 之 间 的 误差 来 衡量 。 一 般 用 来 衡量 
预测 误差 大 小 的 公式 为 平均 平方 差 (mean square error, MSE): 


DG oV 
M= SET 
式 中 Y PCO SB, f AWE, nt TNN. 
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期 数 双 的 选择 影响 预测 的 精确 度 ， 一 般 而 言 ， 大 都 采用 “尝试 错误 ”的 方法 ， 即 采取 
T, T4, 3,… 等 期 计算 移动 平均 ， 并 计算 MSE， 比 较 MSE 的 大 小 ， 选 择 具有 较 小 的 MSE 的 
例如 某 中 介 公 司 的 12 周 租赁 中 介 量 如 表 15-1 所 示 ， 预 测 第 13 周 销 售 量 。 


表 15-1 12 周 租赁 中 介 量 


销售 量 63 81 72 63 54 12 87 84 60 48 60 66 
由 表 15-1 可 知 无 明显 长 期 趋势 及 季节 变动 ， 所 以 利用 移动 平均 法 来 预测 销售 量 。 
首先 假设 期 数 开 = 3 CUL 3 周 数据 计算 移动 平均 ): 

以 第 1 一 3 周 销售 量 平 均 预 测 第 4 周 ，(63+81+72)/3=72 。 
以 第 2 一 4 周 销售 量 平均 预测 第 5 周 ，(81+72+63)/3=72 。 
逐一 计算 可 得 表 152 第 3 列 数据 。 

计算 误差 大 小 如 表 15-2 第 4、5 列 数据 ， 由 此 可 知 ; 


0 
1 < > 、2 
MSE -— 50; - T) -2 629/9-292.1 


tz 


表 15-2 ”中介 公司 3 周 移动 平均 预测 值 


时 间 序列 值 Ye 预测 误差 YC Y 预测 误差 平方 (YY 

[| 
| | | 

-9 8 

-18 324 

9 81 

24 576 

13 169 

-21 441 

29 841 

4 16 

10 100 


2. 加 权 移 动 平均 


在 移动 平均 法 的 计算 中 ， 每 一 个 观察 值 均 具 有 相同 的 权 数 。 另 一 种 可 能 的 方法 ， 即 熟 
知 的 加 权 移 动 平 均 ， 它 是 赋予 每 个 数据 值 不 同 的 权 数 ， 而 后 再 以 加 权 平 均 作 为 预测 值 。 加 
权 移动 平均 法 是 依据 各 期 的 重要 性 ， 给 予 不 同 的 权 数 〈weight) 用 以 计算 天 期 移动 平均 数 。 
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当 要 预测 某 一 期 的 数值 时 ， 通 常 最 近 一 期 的 影响 最 大 ， 而 前 几 期 的 影响 较 小 ， 因 此 最 近 一 
期 的 权 数 应 与 其 他 前 期 的 权 数 不 同 。 在 大 部 分 情况 中 , 将 最 大 的 权 数 放 在 最 近 的 观测 值 上 ， 
且 权 数 随 着 数据 值 的 久远 而 递减 。 

在 此 要 注意 的 是 ， 加 权 移动 平均 的 权 数 总 和 要 等 于 1， 对 简易 的 移动 平均 而 言 ， 也 是 
如 此 。 

上 例 加权 移 动 平均 法 计算 结果 如 表 15-3 所 示 。 


表 15-3 ”中 介 公司 3 周 加 权 移 动 平 均 预测 值 


A 次 ur 预测 误差 Yo Y, SUR EET; (Y- Ye 
1 
2 
3 
4 —10.5 110.25 
* -15 225 
6 12 144 
7 22.5 506.25 
8 7.5 5625 
9 -23 529 
10 -24.5 600.25 
11 2 4 
12 10 100 
13 >》 =2275 
指数 平滑 法 


指数 平滑 法 是 利用 过 去 时 间 序 列 的 加 权 平 均值 来 平滑 数据 的 方法 ， 并 利用 该 加 权 平 均 
值 作为 下 一 期 的 预测 值 。 

以 下 仅 介绍 最 简单 且 常 用 的 一 阶 加 权 平 均 数 (first order exponential smoothing method), 
公式 如 下 : 

指数 平滑 模型 : Fy=@ Y-a F, 
其 中 : 

Fm: (81 期 的 时 间 序 列 预测 值 。 

Ys 1 期 的 时 间 序列 实际 值 。 

F, : 1 期 的 时 间 序 列 预 测 值 。 

a: 加 权 系 数 (0 入 w <1). 

若 时 间 序 列 的 随机 变异 较 大 时 ， 则 加 权 系 数 e 应 较 小 ， 以 避免 因 大 的 预测 误差 而 影响 
预测 值 。 

Fi 为 第 1 期 的 预测 值 , 但 因 无 第 1 期 以 前 的 数据 , 故 一 般 以 第 1 期 的 观测 值 为 预测 值 。 
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距 预 测 期 越 近 的 观测 值 对 预测 值 影 响 越 大 ， 距 预测 期 越 远 的 观测 值 对 预测 值 影 响 越 小 ， 因 
了 ,Ya,… 了 的 权 数 随 着 (1- ) 的 指数 增加 而 递减 。 较 小 的 w 值 产生 较 平滑 的 曲线 , SE, ox EO 
值 产生 较 不 平滑 的 曲线 。 

为 让 读者 了 解 任意 一 期 的 预测 值 为 所 有 前 期 的 实际 值 的 加 权 平 均 ， 假 设 有 一 含 三 期 数 
据 Ya a RRIF. KES F 等 于 第 1 期 的 时 间 序 列 实际 值 ， 也 就 是 说 ， Beh. 
因此 ， 第 2 期 的 预测 值 如 下 所 示 : 


b=0% +( -OR 
=QY *(1-o)Y, 
=} 

一 般 而 言 ， 第 2 期 的 指数 平滑 预测 值 等 于 第 1 期 的 时 间 序 列 实际 值 。 要 得 到 第 3 期 的 
预测 值 ， 将 F,=Y (NA Fi 的 表示 式 中 ， 则 得 : 

F, =aY,+(1-@)Y, 

最 后 ， 将 此 FS RRRA Fa 的 表示 式 中 ， 得 到 : 

F, =aY, +(1— a)[GeY,+(1—G)Y,] 
- a, « ol - Y, € (1o Y, 

由 此 可 以 获知 是 前 三 个 时 间 序 列 值 的 加 权 平 均 ， 并 且 注 意 到 六、 及 、% 的 系数 或 权 
数 的 和 为 1。 对 于 任 一 个 Fw 的 预测 值 而 言 ， 一 样 可 以 依 此 推导 出 ， 它 ea 
值 的 加 权 平 均 。 

指数 平滑 法 的 好 处 是 仅 需 要 极 少 的 历史 数据 来 做 简易 的 处 理 ， 只 要 加 权 系 数 w 一 经 选 

， 则 要 计算 下 一 期 的 预测 值 ， 只 需 两 项 数据 。 如 同 式 中 ， 若 w 已 给 定 而 要 求 nel 期 的 预 
M. 只 要 知道 期 的 实际 值 与 预测 值 F, B np s 

事实 上 只 要 w 值 介 于 0 与 1 之 间 皆 可 以 。 当 然 有 某 一 些 值 比 其 他 的 值 更 好 ， 而 从 下 面 
改写 的 基本 指数 平滑 模型 中 ， 可 以 选择 出 一 个 良好 的 w 值 : 

Fa =aY,+((1—o)F, 
Fa = aY, + F, -oF, 
Fn = 五 +a(Y, =F) 

由 此 知道 新 的 预测 值 Fe 等 于 前 期 的 预测 值 加 上 一 项 修正 项 即 是 @ 倍 的 最 近 预 测 误 
差 Y Fp BÆR nel 期 的 预测 值 是 由 第 :期 的 预测 值 经 预测 误差 修正 而 获得 的 。 若 这 一 
时 间 序 列 的 随机 变异 很 大 ， 则 加 权 系 数 应 选 较 小 的 ， 其 理由 是 因为 预测 误差 大 部 分 是 由 随 
机 变异 引起 的 ， 因 此 不 希望 太 快 地 高 估 或 低估 这 些 预测 值 。 但 若 对 于 一 个 时 间 序 列 的 随机 
变异 极 小 ， 则 选择 较 大 的 加 权 系 数 ， 以 便当 预测 误差 发 生 时 ， 能 根据 其 变化 的 状况 ， 很 快 
降低 预测 值 或 升 高 预测 值 。 选 择 加 权 系 数 的 标准 亦 如 前 面 移 动 平均 计算 选择 期 数 的 标准 一 
样 ， 即 要 选择 一 个 w 值 使 均 方 误差 (MSE) 为 最 小 。 

以 指数 平滑 法 计算 前 例 的 预测 值 ， 取 w = 0.2 ， 计 算 结 果 如 表 15-4 所 示 。 
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表 15-4 ”指数 平滑 法 的 预测 值 


a ”次 | 时 间 序列 值 % | aT 预测 误差 Y-Y, 预测 误差 平方 (YW 
预测 值 Ý 
1 63 
2 81 63 18 324 
3 72 66.6 54 29.16 
4 63 67.68 —4.68 21.9 
5 54 66.74 —12.74 163.31 
6 72 64.19 7.81 61 
T7 87 65.75 21:25 451.56 
8 84 70 14 196 
9 60 72.8 -12.8 163.84 
10 48 7024 22.24 494.62 
11 60 65.79 —5.79 33.52 
12 66 64.63 1.37 1.88 
13 64.9 = 1 940.79 


15.5 ”用 趋势 方程 预测 时 间 序列 


在 之 前 描述 自 变 量 匀 与 因 变 量 了 之 间 的 线性 关系 的 估计 回归 方程 为 : 
Y =b +b X 

而 在 预测 时 ， 为 了 使 自 变量 为 时 间 的 事实 更 明显 ， 以 z 代 替 上 式 中 的 BIA TREP. 
因此 估计 销售 量 的 线性 趋势 可 表示 成 如 下 的 时 间 函 数 : 

线性 趋势 的 方程 :7T,=bo+tbit。 
其 中 : 

7 为 第 1 期 的 时 间 序列 预测 值 ( 以 趋势 为 准 )。 

bo 为 趋势 线 的 截 距 。 

bi 为 趋势 线 的 斜率 。 

1 为 时 点 


所 对 应 的 时 间 等 。 至 于 估计 回归 系数 (bo 与 bo 的 计算 公式 在 以 前 已 经 提 过 了 ， 再 重 述 如 
F, HAERE X, YER Y; 
斜率 (bo) SRE (b) 的 计算 公式 如 下 : 


p 2o (E) 
F275) 


b, =Y -bt 
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其 中 : 


六 为 第 7 期 的 时 间 序列 实际 值 。 

n ANE. 

了 为 时 间 序 列 的 平均 值 ，7= Y [n 
DELE E 


15.6 ”预测 含 趋势 与 季节 成 分 的 时 间 序 列 


在 15.5 节 说 明了 如 何 预测 含 趋势 成 分 的 时 间 序 列 。 本 节 将 讨论 如 何 预测 含 趋势 与 季节 


两 种 成 分 的 时 间 序 列 ， 所 使 用 的 方法 是 由 时 间 序 列 中 先 除去 季节 效应 ， 此 步骤 称 为 剔除 季 
节 性 。 在 剔除 季节 性 后 ， 时 间 序 列 将 仅 含 趋势 成 分 ， 然 后 就 可 用 15.5 节 介绍 的 方法 ， 辩 认 
其 趋势 成 分 。 而 后 应 用 趋势 估计 模型 ， 将 可 预测 未 来 时 期 的 时 间 序 列 的 趋势 成 分 。 最 后 再 
以 季节 指数 调整 趋势 估计 值 。 如 此 一 来 ， 将 可 辨认 趋势 与 季节 成 分 ， 并 在 预测 时 同时 考虑 


除了 趋势 成 分 7) 与 季节 成 分 (S) 之 外 ， 将 假设 该 时 间 序 列 也 有 不 规则 成 分 (7)。 


不 规则 成 分 是 说 明 无 法 由 趋势 与 季节 成 分 解释 的 任何 随机 效应 。 以 T, S, 指明 时 间 + 
的 趋势 、 季 节 与 不 规则 成 分 ， 将 假设 时 间 序 列 模型 (multiplicative time series model) 表 
示 为 : 


Y =TxS x, 
FEJERE R, T, EMAR ARREA, S5; 4 则 是 以 相对 数值 度量 ， 若 其 值 高 于 1.00, 


则 表示 效应 在 趋势 之 上 ， 若 其 值 低 于 1.00， 则 表示 效应 在 趋势 的 下 方 。 


1. 剔除 时 间 序 列 的 季节 性 
求 季节 指数 的 目的 通常 是 要 剔除 时 间 序 列 中 的 季节 效应 ， 此 过 程 称 为 剔除 时 间 序 列 的 


季节 性 。 像 当前 商业 调查 与 华尔街 日 报 等 刊物 常 报 导 经 季节 变异 调整 过 后 的 经 济 时 间 序 列 
(除去 季节 性 的 时 间 序 列 )。 利 用 乘法 模型 的 符号 ， 可 得 到 : 


Y =1xS,x1, 


将 各 时 间 序 列 观察 值 除 以 对 应 的 季节 指数 ， 即 可 将 季节 效应 除去 。 


2. 剔除 季节 性 的 时 间 序 列 估计 趋势 
当 已 有 剔除 季节 性 后 的 数据 ， 可 以 直接 利用 这 些 数值 来 计算 趋势 。 因 此 估计 量 的 线性 


趋势 方程 ， 可 以 写成 如 下 的 时 间 函 数 : 


T, =b, +bt 
参数 估计 的 具体 方法 参见 15.5 节 。 
3. 循环 成 分 
在 数学 上 ， 可 将 乘法 模型 推广 为 如 下 含 循环 成 分 的 模型 : 
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Y, T, XC, xS, X I, 
循环 成 分 与 季节 成 分 相同 ， 也 用 趋势 的 百分比 来 表示 ， 此 成 分 可 归结 为 时 间 序 列 的 多 
年 循环 。 与 季节 成 分 相 类 似 ， 但 经 过 的 时 间 较 长 ， 很 难 收集 足够 的 相关 数据 以 估计 循环 
成 分 。 


157 利用 回归 模型 预测 时 间 序 列 


在 回归 分 析 讨 论 中 ， 说 明 如 何 用 一 个 或 一 个 以 上 的 自 变 量 预 测 单一 因 变量 的 值 。 当 回 
归 分 析 被 视 为 预测 工具 ， 可 将 要 预测 的 时 间 序 列 值 视 为 因 变量 。 因 此 ， 若 能 找到 一 组 良好 
的 自 变量 ， 可 建立 预测 时 间 序 列 的 估计 回归 方程 。 

在 建立 估计 回归 方程 时 ， 需 要 一 个 包含 因 变 量 及 所 有 自 变 量 的 观察 值 样本 ， 而 在 时 间 
序列 分 析 中 ，N 个 时 期 的 时 间 序 列 数据 ， 恰 可 作为 用 于 此 分 析 中 的 每 一 个 变量 的 个 观察 
值 的 样本 。 对 含有 大 个 自 变量 的 函数 而 言 ， 以 下 列 符号 表示 : 

Y, Jy 58 :期 时 间 序列 的 实际 值 。 

Xu A58 (IRIS 1 个 自 变 量 值 。 

Zi 为 第 1 期 的 第 2 个 自 变 量 值 。 


Xi 为 第 1 期 的 第 个 自 变量 值 。 
可 以 想象 到 ， 在 一 个 预测 模型 中 ， 自 变量 的 选择 有 许多 种 ， 其 中 一 种 可 能 的 选择 是 以 
时 间 为 自 变量 。 例如 以 时 间 为 自 变量 , 构建 线性 函数 来 估计 该 时 间 序 列 趋势 。 令 Xt 则 可 
求 得 形式 为 : 
Y, 2 by +bt 
的 估计 回归 方程 ， 其 中 多 为 时 间 序列 蕊 值 的 估计 值 ， 而 bo 与 bi 为 估计 回归 系数 。 在 更 复 
杂 的 模型 中 ， 可 加 入 时 间 的 高 次 寡 项 。 例 如 ， 令 : 
X, = 


且 
3t = 
则 回归 方程 变 成 : 
Y —hytbhX,tbX,tbX, 
=b +bt +b, +b, 

注意 ， 此 模型 可 提供 具有 曲线 时 间 特 征 的 时 间 序列 预测 值 。 

回归 方法 能 否 提供 一 个 良好 的 预测 值 ， 依 赖 于 所 得 到 的 自 变量 数据 是 否 与 此 时 间 序 列 
有 紧密 的 关系 。 一 般 在 建立 一 个 估计 回归 方程 时 ， 会 考虑 到 许多 种 自 变量 的 组 合 。 所 以 回 
归 分 析 的 部 分 程序 ， 即 将 注意 力 集中 于 所 要 选择 的 自 变量 上 ， 以 期 能 提供 一 个 最 好 的 预测 
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模型 。 

因果 预测 模型 利用 与 所 预测 的 序列 相关 的 时 间 序 列 ， 说 明了 时 间 序 列 行为 的 因果 。 
归 分 析 是 常用 的 建立 这 些 因果 模型 的 工具 ; 相关 的 时 间 序 列 被 看 作 自 变量 ， 而 要 预测 的 时 
间 序列 则 是 因 变量 。 

另 一 种 以 回归 为 基础 的 预测 模型 ， 则 其 自 变量 为 这 一 时 间 序 列 的 所 有 前 期 值 。 例 如 ， 
TU Y, Yoye, Yn 表示 时 间 序 列 值 ， 而 因 变 量 为 Y, BJ uj fi e sr. Y. =bot-hiY,ərrbyY, >+ 
bsY,a, XÍ Yas Yro 等 近期 时 间 序 列 值 估计 回归 方程 。 若 以 最 近 三 期 为 自 变量 ， 则 其 估计 
回归 方程 为 : 


$=botbiYritb2aY, 2tbaY,s 
以 时 间 序 列 的 前 期 值 为 自 变量 的 回归 模型 称 为 自 回归 模型 (autoregressive model). 
最 后 ， 另 一 种 以 回归 为 基础 的 预测 方法 则 综合 前 述 所 讨论 的 自 变量 。 例 如 ， 可 能 选择 
时 间 变 量 、 一 些 经 济 及 人 口 统计 变量 与 一 些 前 期 值 加 入 自 变 量 中 。 


15.8 ”其 他 预测 模型 


所 谓 简 算法 (naive method)， 是 指 一 种 不 需 依 靠 繁琐 的 计算 和 复杂 的 理论 即 可 由 历史 
数据 得 出 预测 值 的 方法 ， 由 于 较 其 他 预测 方法 简单 、 快 速 ， 故 不 失 为 一 种 有 用 的 预测 法 。 
通常 有 下 列 两 种 方法 ， 参 见 Martin And Witt (19892). 


方法 一 : fY, 


y X Ya 
方法 二 : a= hx l+ 


Ya 


其 中 Y AEA Y, 代表 未 来 一 期 的 预测 值 。 

在 方法 一 中 , 第 en 期 的 预测 值 即 等 于 第 1 期 的 观测 值 。 可 以 了 解 ， 在 没有 特殊 状况 的 
情形 下 ， 用 简 算 法 做 预测 ， 是 直接 而 合理 的 ， 但 是 在 使 用 这 种 方法 时 ， 通 常 要 辅 以 其 他 
方法 。 

在 方法 二 中 ， 第 en 期 的 预测 值 即 等 于 第 1 期 的 观测 值 加 上 第 1 期 的 观测 值 乘 以 第 1 期 
的 成 长 率 。 这样 的 方法 ,考虑 了 第 :期 的 成 长 趋势 对 第 t+1 期 的 影响 ,一 般 来 说 ,对 稳定 成 
长 的 时 间 序 列 做 预测 ， 用 这 样 的 方法 并 无 不 妥 。 若 第 1 期 有 正成 长 , 第 t+1 期 便 同样 是 正成 
长 ， 若 第 + 期 正成 长 ， 第 enl 期 便 为 同 幅度 的 正成 长 。 


15.9 单 变量 时 间 序 列 预测 模型 


假设 随机 变量 为 在 时 间 + 的 一 个 观测 值 ， 那 么 一 组 所 成 的 序列 ， 就 称 为 一 个 时 间 
序列 。 有 所 谓 的 ARIMA 模型 (autoregressive integrated moving average model)， 记 作 
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Y,—ARIMA (p,q,q)， 其 公式 如 下 : 
ó,(B)Z, = 0, (B)a, 


其 中 : 
ó,(B)=1-óB-6B°--...- ó,B” 
0.(B)=1-0B-60,B° —.—6,B* 
Z,-(1- BY, 
滞后 算 子 (backward shift operator) B， 其 公式 如 下 : 
BZ =Z 
pex. 
乙 为 上 时 的 观察 值 。 
滞后 差分 算 子 (backward difference) 1-B， 其 公式 如 下 : 
Vz,-Z,-Z,,-(0-BZ, 
相 加 运算 (summation operation? S， 其 公式 如 下 : 
S-pH 
XZ u =Z +Z +Z + 
Jo 


=(1+B+ B° e, 
-(1- B) Z, «SZ, - V'7Z, 
白 噪声 (white noise): a,,a, 41,50, 4,5. 其 公式 如 下 : 
E(a,)=0, V(a,)=o2 
1. 自 回归 模型 (autoregressive model, AR Model) 
自 回归 模型 的 推导 公式 如 下 : 
Z,=Z,-u 
Z =62 * 5,2, te, +a, 
Z, =0BZ * B'Z, «B2, +a, 
所 以 a -(0-4B-6B* ——-6,B^)Z, = ó(B)Z, 
((B)Z, 2 a, © Z, = ((B)a, 
(B) - 6 (B) 
2. 移动 平均 模型 (moving average process model. MA Model) 
移动 平均 模型 的 推导 公式 如 下 : 
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1 


一 9a, , am a, > DIES 9,2, , 


, =a, -&Ba, - 6, B'a, —---—- 6 B'a, 
-a(1-8B-6,B* - &B —.—6 B) 
所 以 Z, = 0(B)a, 

3. AR-MA 模型 (mixed autoregressive moving average model Mixed AR-MA Model) 

AR-MA 模型 的 推导 公式 如 下 : 

Z, =Z, +6,Z,_, Feto Ziy +a,= a, ;=0;a, == dis 
Z, -&4BZ, -&,B'Z, , —-—6,B"Z, =a, - Ba, -6,B'a, —- — 0,B'a, 
%(B)Z, = &(Bya, 

一 般 AR-MA 模型 的 p、g 值 都 小 于 2, p,qx2. 

4. 季节 循环 性 时 间 序 列 模型 (seasonal autoregressive integrated moving average 
model, SARIMA Model) 

有 些 时 间 序 列 有 季节 循环 的 特性 ， 称 为 SARIMA 模型 ， 记 作 Y,—SARIMA(P.D.Q)S, 
其 公式 如 下 : 

p(B)Z, = Oo(B)a, 
其 中 : 

ó,(B) -1- 4B- 6B" 一 … 一 加 BA 。 

9,(B) 21- 9,8- 6,8" -...- OB% 。 

3 为 季节 循环 期 数 ，Z, =(1- BY. 

时 间 序 列 模型 是 依照 随机 变量 间 的 相关 性 而 建立 的 ， 若 是 有 外 在 的 因素 干扰 ， 则 时 间 
序列 趋势 必 有 所 改变 ， 鉴 于 此 ， 在 做 时 间 序 列 分 析 时 ， 可 以 考虑 干扰 因子 模型 ， 其 公式 
如 下 : 

y -CCB)5 1 +N 
ó(B) 


t 


N' 为 单 变量 时 间 序 列 模型 。 
0 干扰 因子 发 生前 
f 干扰 因子 发 生 后 

在 应 用 时 间 序 列 分 析 方 法 时 ， 最 重要 的 假设 是 这 个 序列 的 平稳 性 。 但 是 在 实际 应 用 方 
面 ， 许 多 时 间 序 列 都 不 符合 平稳 的 要 求 ， 针 对 这 个 问题 ， 有 两 个 解决 方法 : 一 是 对 Y, MOT 
差 平稳 转换 (variance stabilizing transformation); 二 是 对 7 做 差分 。 在 实际 应 用 时 ， 应 该 先 
决定 是 否 要 做 方差 平稳 转换 ， 其 次 再 决定 如 何 做 差分 。 模 型 中 的 w 表示 残 差 项 ， 如 果 模 型 
配置 良好 ， 残 差 项 应 该 像 是 一 个 白 噪 声 过 程 。 单 变量 时 间 序 列 模型 的 建立 过 程 主要 有 三 个 
阶段 : 模型 识别 〈identification )、 参 数 估计 Cestimation) 和 模型 诊断 〈diagnostic checking), 
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如 图 15-8 所 示 。 当 模型 诊断 时 发 现 拟 合 不 佳 ， 应 注意 拟 合 不 佳 的 模型 有 何 特征 ， 以 便 决 定 
其 他 可 能 的 模型 ， 此 时 再 重复 建立 模型 的 三 个 阶段 。 这 样 的 过 程 是 不 断 重 复 的 ， 直 到 找 出 


拟 合 好 的 模型 为 止 。 


模型 诊断 


考虑 替代 模型 


图 15-8 模型 建立 过 程 


15.10 时间 趋势 预测 模型 


模型 预测 


时 间 趋 势 模 型 (trend curve analysis) 是 以 需求 量 为 被 解释 变量 而 以 时 间 为 解释 变量 ， 
依据 各 种 组 合 模型 试图 拟 合 最 佳 模 型 来 表示 需求 量 与 时 间 之 间 的 关系 。 这 10 种 函数 关系 如 
下 所 示 (Martin And Witt, 1989). 

© 线性 函数 (linear): Y, = A, + ñit +e, 

Q) 双 曲 线 函数 (hyperbolic): Y, = 8, +A +e, 

© 限制 型 双 曲线 函数 (constrained hyperbolic): J = 2, +A +e, 

@ 变形 双 曲 线 函 数 Cmodified hyperbolic): = ñ, + Bit + 8, 

© 指数 函数 CexponentiaD: InY, =Á, - At +, 

© 变形 指数 函数 (modified exponential): In = A) - A^ +e, 

© 半 对 数 函数 Csemilog?: Ê =p, * B Inte, 

几何 函数 (geometric): Inf, = f, * f, Int+e, 

© 二 次 函数 (quadratic): Ê, = +At+ ñ, +E, 

对 数 二 次 函数 Clog quadratic): In, = B, + it B, +e, 


其 中 允 为 1 期 的 需求 量 ，Ph， 忆 ， ,为 参数 ，s, 为 随机 干扰 项 。 
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上 述 模 型 是 一 般 形式 的 回归 模型 ， 因 此 在 参数 估计 方面 是 以 最 小 二 乘法 估计 。 在 模型 
选取 时 ， 以 模型 解释 度 的 高 低 及 参数 估计 值 显著 与 否 进行 筛选 ， 再 综合 考虑 模型 的 预测 能 
J. 实际 应 用 时 , 用 Adj R-Square 值 反 映 模型 解释 能 力 和 MAPE, RMSPE 评估 其 预测 能 力 ， 
选取 一 个 最 适合 的 理想 模型 。 


15.11 Excel 2007 时 间 序 列 


SQL 2005 中 的 时 间 序 列 与 一 般 所 熟知 的 时 序 方法 不 尽 相 同 , 它 是 使 用 线性 回归 决策 树 
的 方法 来 分 析 时 间 相 关 的 数据 。 它 建立 的 模型 可 用 来 预测 未 来 时 刻 的 因 变 量 值 。Excel 2007 
时 间 序 列 的 操作 步骤 如 下 。 

Step1: 数据 是 三 个 地 区 2001 一 2004 年 M200 型 的 销售 记录 ， 数 据 选 取 后 单 击 【高 级 】 
下 的 【创建 挖掘 模型 】 按 钮 ， 如 图 15-9 所 示 。 


ea 9- ° x 
3] 388 = 2 #@ % 3 IAAD KAR 
NS mA 分 ë Xx x RON aw w x euismo m | w 
BB BE SE 类 计 $6 BON &j -- W W a doat & A 

ss K 


aa napa K aum: e 
dose = 
A6 gom | y emptam o | 
| À | B e. E 


2 

3 M200 型 号 在 各 地 区 销售 情况 的 历史 记录 。 

4 

5 Year /Month d Europe Amount 四 NorthAaerica Anount 加 Pacific Anount M 
6 200107 20324. 94 20824. 94 64424. 81 
f 200108 20349. 94 23724. 03 60899. 82 
8 200109 16949. 05 16974. 05 10174. 97 
9 200110 16949. 95 20299. 04 54174. 84 
10 200111 27124. 92 23149. 03 57599. 83 
y 200112 27049. 92 47399. 86 57474. 83 
12 200201 27124. 92 30474. 91 64349. 81 
13 200202 23699. 93 30424. 91 6799. 98 
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15-9 创建 挖掘 模型 


Step2: 在 如 图 15-10 所 示 的 【创建 模型 向 导入 门 】 窗 口中 ， 单 击 【 下 一 步 】 按 钮 。 
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igi xi 
> 创建 模型 向 导入 门 


它 是 什么 

Er Excel 表 、 1 区 域 或 
Analysis Services 查询 的 Würim mmi PEN 
您 可 以 指定 所 使 用 的 算法 以 及 希望 预测 或 用 作 输 入 的 列 . 


它 笋 些 什么 ? 
该 向 导 允 许 您 选择 用 于 挖掘 模型 的 算法 ， 指 定 算法 使 用 的 
参数 ， 以 及 指定 输入 数据 中 要 使 用 的 列 。 


E M SQL Server Analysis Services 数据 库 才 能 
使 用 创建 模型 向 导 。 该 向 导 创 建 的 模型 可 以 是 持久 性 的 或 “ 己 
Eo 若 要 创建 临时 模型 ， EL Ao 


控 据 模型 。 请 与 您 的 服务 器 管理 员 联系 
婴 设 寺 人 主创 建 放 时 挖掘 模 刑 ” 泳 向 怪 还 分 省 你 拱 定 档 刑 “加 | 


T 不 再 显示 此 欢迎 页 (D) . 


CE SE) mw | 
Æ 15-10 【创建 模型 向 导入 门 】 窗 口 
Step3: 选择 挖掘 算法 ， 在 【算法 】 下 拉 列 表 框 中 选择 【Microsoft 时 序 】， 如 图 15-11 
所 示 ， 单 击 【下 一 步 】 按 钮 。 


A 创建 挖掘 模型 向 导 -loj xj 
ARRENE 


选择 控 气 算法 ， 同 时 也 可 以 设置 算法 参数 


co [Eze] ma | 


A 


图 15-11 选择 挖掘 算法 
Step4: 在 如 图 15-12 所 示 的 【选择 列 】 窗 口中 选择 变量 ， 将 三 个 地 区 的 变量 都 选 为 预 
测 变量 ， 单 击 【 下 一 步 】 按 钮 。 
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< 创 建 控 据 模型 向 导 D| xl 
aje 
表 列 用 法 
Year Month Key Tine H|.. 
Europe Amount 仅 预 测 EI.. 
Northàmerica Amount 仅 预测 E.. 
z 


《上 一 步 @) || 下 一 步 四 > 


15-12 ”选择 变量 


Step5: 显示 时 间 序列 的 决策 树 ， 如 图 15-13 所 示 发 现 一 共 分 为 两 层 ， 以 每 月 收入 总 额 
200 305.859 作为 分 类 水 平 。 


lolx] 
诀 策 树 me | 控 握 图例 
alal ala 到 树 : E Northânerica A... Z] BUR: [5 2299 =] 


WR: [全 部 事例 E 显示 级 别 1 Ja 


FHE Excel (E) ximo M 


图 15-13 ”显示 时 间 序列 的 决策 树 
Step6: 将 图 表 复 制 到 Excel， 如 图 15-14 所 示 。 
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(es DMAddins SampleData - Microsoft Excel TUE 
i 数据 ”市 阅 ”视图 数据 挖掘 @- = x 


ua ae zas D ZB At 24 


浏览 “清除 为 数据 准确 性 分 类 利润 。 济 管理 SQLDemo m 
数据 数据 ”分 区 ERO Eoo 模型 (localhost 3 
数据 准备 准 史 性 和 验证 模型 用 法 €a E "ib 
docs 
E16 om m 
A B G D NEM F G H I J K L E 
1 Table5 - 时 序 
2 决策 树 
3 NorthAmerica Amount 
4 
5 
6 "I 
T d 
8 
9 
10 
11 
12 
13 
14 
15 
16 E 
Eral 
M 4e ^| Introduction, Table Analysis Tools Sample Forecasting] 诀 策 树 Fill From Example | &] 
mu onm. 


图 15-14 ”复制 到 Excel 


Step7: 图 15-15 为 三 个 地 区 的 时 间 序 列 预测 趋势 图 ， 在 图 中 【预测 步 又】 微调 按钮 处 
可 选择 期 望 预测 期 数 ， 在 此 选择 预测 S 期 ， 由 图 表 可 发 现 未 来 预测 销售 呈 逐 渐 上 升 趋势 。 
LC EN = ID] xi 
semen [图 表 
ja 到 alaj r 显示 历史 预测 信息 r BRE mR 习 


F [Europe Amount 
RO [E sortanerica Anount 
F Pacific ino 


-500 4. 
200107 — 200111 — 200203 200207 200211 — 200303 200307 200311 — 200403 — 200407 


复制 到 Excel (E) 
15-15 三 地 区 时 间 序 列 预测 趋势 
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Step8: 将 图 表 复 制 到 Excel， 如 图 15-16 所 示 。 


@ DMAddins_SampleData - Microsoft Excel BEKIR = 
m gn cn nou) as | 


CEEE Li NC 


| MUR We 为 数据 分 估 关 高 “准确 性 分 类 
| 数据 数据 ”分 区 » t K 测 级 ” EE EM 


管理 ”SQLDemo m 


E F 
Table5 - 时 序 


ga 


| 2500. 


| 2000.1. 


«o o al en e» es |o = P 


ce 


— Europe Mnount RRR) 
+= Europe Anount (QI) 


15 | ons — Worthlaerics Amount GRRR) 
15) |n TE ..... NorthAaerice Amount GMA) 
| 一 Pacifie mount RR) 
1:] | AAN Ka... Pacific Amount GMM) 


500.3 
200107 200111 200203 200207 200211 200303 200307 200311 200403 20007 200411 


Introduction, Table Analysis Tools Sample, Forecasting WP. 图 表 Fill From Example, S 
mau 


15-16 ”复制 到 Excel 


=7197 


第 16 章 DMX 介绍 


16.1 DMX 介绍 


DMX, 44 data mining extension, fE SQL Server 2005 中 用 于 建立 和 操作 数据 挖掘 模 
型 的 语言 ， 可 以 使 用 DMX 建立 新 数据 挖掘 模型 的 结构 ， 训 练 这 些 模 型 ， 以 及 浏览 、 管 理 
与 预测 模型 。DMX 是 由 数据 定义 语言 (data definition language, DDL) 语句 、 数 据 操作 语 
言 (data manipulation language, DML) 语句 ， 以 及 函数 和 操作 符 等 所 组 成 。 使 用 前 须 定 义 
一 些 对 象 如 下 。 

口 标识 符 

定义 名 称 对 象 ， 例 如 挖掘 模型 、 挖 气 结 构 和 数据 行 。 基 本 上 分 为 两 种 ， 一 般 标 识 符 与 
分 隔 标识 符 。 一 般 标 识 符 长 度 不 可 超过 100 字符 ， 起 始 字符 必须 为 下 划 线 或 被 Unicode 
Standard 2.0 所 定义 的 字母 。 标 识 符 不 能 为 保留 关键 词 ， 不 论 大 小 写 ， 且 中 间 不 能 有 空格 ; 
分 隔 标识 符 以 [ ] 括 住 ， 在 条 件 未 符合 一 般 标识 符 时 使 用 ， 长 度 不 可 超过 100。 

定义 挖掘 模型 数据 行 包含 的 数据 类 型 。 基 本 上 有 text. long. boolean. double. date 
五 种 数据 类 型 。 每 种 数据 类 型 又 分 别 支持 不 同 内 容 类 型 ， 如 定性 变量 、 数 值 变量 等 。 

O 表达 式 

通常 包含 单一 或 纯 量 值 、 对 象 ， 或 数据 表 值 的 语法 单位 。 

常数 是 代表 单一 特定 值 的 符号 。 常 数 可 以 是 字符 串 ， 或 是 数值 或 日 期 值 。 必 须 使 用 单 
引号 ““” 来 分 隔 字符 串 与 日 期 常数 。 纯 量 函 数 会 传 回 单一 值 ， 非 纯 量 函数 会 传 回 数据 表 。 
而 对 象 标识 符 在 DMX 中 视 为 简单 表达 式 。 

Q 操作 符 

配合 一 个 或 多 个 简单 DMX 表达 式 使 用 ， 以 产生 更 复杂 的 DMX 表达 式 。 

Q mx 

采用 零 、 一 或 多 个 输入 值 ， 并 传 回 纯 量 值 或 数据 表 的 表达 式 。SQL 2005 中 还 可 使 用 
VBA 或 Excel 的 函数 ， 也 可 以 使 用 common language runtime 程序 设计 语言 建立 扩充 DMX 
功能 的 预存 程序 。 

口 批注 

文字 元 素 , 可 以 插入 DMX 语句 或 脚本 中 以 说 明 语句 的 目的 , 方便 程序 撰写 员 未 来 开 
发 或 维护 。/ OARA) 与 --( 双 连 字 符 ) 之 后 的 所 有 文字 将 被 视 为 批注 ， 而 符号 六 、*/ OBL 
线 与 星 字 号 的 配对 )， 则 是 两 者 之 中 的 文字 将 被 视 为 批注 。 

口 ”保留 关键 词 

保留 给 DMX 使 用 的 字 ， 为 数据 库 中 的 对 象 命名 时 不 应 使 用 这 些 字 。 若 名 称 冲突 时 ， 
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需 使 用 标识 符 标记 。 

OQ mese 

定义 挖掘 结构 数据 行 所 包含 的 内 容 。 每 种 算法 支持 不 同 的 内 容 类 型 ， 基 本 上 分 为 下 列 
几 种 。 

DISCRETE 一 一 如 性 别 数据 为 一 典型 的 离散 数据 。 数 据 内 包含 有 限 的 类 别 ， 即 使 是 
数值 数据 也 不 一 定 有 排序 意义 ， 如 电话 号 码 。 所 有 的 数据 类 型 皆 可 使 用 此 种 内 容 类 型 。 

CONTINUOUS 一 一 数据 为 连续 的 数值 数据 ， 具 有 度量 意义 ， 可 能 有 无 限 的 小 数值 ， 
如 收入 、 身 高 等 。date、double 和 long 三 种 数据 类 型 支持 此 内 容 类 型 。 

DISCRETIZED 一 一 数据 为 连续 , 但 却 须 区 分 成 分 隔 时 ，SQL 2005 会 自动 分 隔 成 等 份 
的 值 域 ， 如 身高 从 150 一 180 可 能 有 无 限 小 数 ， 分 割 成 150—160. 161—170. 171—180 三 
个 值 域 。 分 割 方式 有 Automatic; CLUSTERS. EQUAL AREAS. Thresholds 四 种 。date、 
double、long 和 text 四 种 数据 类 型 支持 此 内 容 类 型 。 

KEY 一 一 此 数据 行 会 唯一 识别 数据 列 。date、double、long 和 text 均 支持 此 内 容 类 型 。 

KEY SEQUENCE 一 一 为 特定 索引 键 类 型 ， 其 值 具有 时 间 意 义 ， 而 且 已 排序 ， 不 必 为 等 
PB. double. long. text 和 date 支持 此 内 容 类 型 。 

KEY TIME 一 一 为 特定 时 间 段 索引 键 类 型 ， 其 值 代表 已 排序 且 会 在 某 时 段 发 生 的 值 。 
double、long 和 date 支持 此 内 容 类 型 。 

ORDERED 一 一 代表 该 数据 为 排序 的 值 ， 如 名 次 ， 但 间距 并 没有 意义 ， 如 第 一 名 不 代 
表 成 绩 为 第 五 名 的 五 倍 。 所 有 数据 类 型 ， 都 支持 此 内 容 类 型 。 

CYCLICAL 一 一 代表 该 数据 具有 循环 且 排序 的 值 ， 如 月 份 为 一 个 典型 例子 。 所 有 数据 
类 型 都 支持 此 内 容 类 型 。 

口 分 布 类 型 

定义 数据 的 分 布 类 型 。 定 义 之 后 ， 算 法 有 可 能 得 到 更 精确 的 结果 。 基 本 有 三 种 模型 ， 
ormal 为 正 态 分 布 、log normal 为 对 数 正 态 分 布 、uniform 为 均匀 分 布 。 

口 使 用 方式 

在 挖掘 模型 中 须 定义 如 何 使 用 数据 ， 基 本 类 别 如 下 : 

Key 为 索引 键 、Key Sequence 为 具 顺 序 性 质 的 索引 键 、Key Time 为 具 时 间 性 质 的 索引 
键 、Predict 为 同时 用 作 输 入 与 输出 的 值 、PredictOnly 为 只 用 作 输 出 的 值 ， 其 余 未 指定 的 值 
将 是 做 输入 值 。 

口 模型 标识 

定义 其 他 的 提示 ,如 Not null 为 数据 不 能 为 空 、 REGRESSOR- 
归公 式 里 使 用 指定 的 数据 行 等 。 


可 以 在 回归 算法 的 回 


16.2 DMX 函数 介绍 


基于 挖掘 阶段 ， 大 概 分 为 三 个 阶段 ， 下 面 分 阶段 介绍 DMX 应 用 。 
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162.1 模型 建立 


此 阶段 的 代码 编写 存在 一 些 语法 习惯 ， 例 如 : 粗 体 为 必须 完全 相同 ， 斜 体 为 使 用 者 自 
定义 的 参数 ; | CRR) 在 方 括号 或 大 括号 内 用 来 分 隔 语法 项 目 ， 只 能 选择 其 中 一 种 ; [] ( 方 
括号 ) 为 选择 性 语法 ， 使 用 时 不 输入 方 括号 ; f} (大 括号 ) 表示 必要 项 目 ， 使 用 时 不 输入 
大 括号 ，,… 指 出 逗号 之 前 的 项 目 可 以 重复 多 次 ， 项 目 之 间 以 逗号 分 割 。 

CREATE [SESSION] MINING MODEL «model» 
( 
[(«column definition list»)] 


) 
USING «algorithm» [(«parameter list»)] [WITH DRILLTHROUGH] 


model—— model 的 唯一 名 称 。 
SESSION 一 一 当 连 接 关 闭 或 会 话 超 时 时 ， 建 立 的 挖掘 模型 会 自动 移 除 。 
algorithm 一 一 使 用 何 种 算法 。 
parameter list 一 一 定义 算法 的 参数 。 
WITH DRILLTHROUGH 一 一 定义 是 否 可 以 钻研 。 
column definition list 一 一 每 行 用 逗号 分 隔 ， 定 义 数 据 属 性 详细 如 下 。 
若 为 单一 数据 如 下 : 
€column name? <data type? [XDistribution»] [<ModelingFlags>]《Content 
Type? 
[Xprediction»] [<column relationship>] 


若 为 梨 状 数据 如 下 : 


“column name» TABLE [<prediction>] ( <non-table column definition 
list? ) 


实际 使 用 范例 如 下 : 


CREATE MINING MODEL PredictRisk 
(ID KEY, 

Gender TEXT DISCRETE, 

Income LONG CONTINUOUS, 

Job TEXT DISCRETE, 

Area TEXT DISCRETE, 

Risk TEXT DISCRETE PREDICT) 
USINGMicrosoft Decision Trees 


上 述 表明 , 使 用 微软 决策 树 算法 建立 一 个 名 称 为 PredictRisk 的 模型 , 包括 六 个 数据 行 。 
其 中 Risk 用 作 输 入 和 输出 的 数据 行 ，ID 字段 为 索引 键 ， 其 余 四 个 均 为 输入 值 。 
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16.2.2 ”模型 训练 


语法 范例 : 
INSERT INTO [MINING MODEL] | [MINING STRUCTURE] <model>|<structure> 
(<mapped model columns>) <source data query> 


INSERT INTO [MINING MODEL] | [MINING STRUCTURE] 
<mode1>|<structure>.COLUMN_VALUES (<mapped mode1 columns>) <source data 
query> 
model 一 一 挖掘 模型 的 名 称 。 
structure 一 一 挖掘 结构 的 名 称 。 
mapped model columns 一 一 数据 行 标识 符 或 巢 状 标识 符 的 逗号 分 隔 清单 。 
source data query 一 一 提供 者 自 定义 格式 中 的 来 源 查 询 。 
实例 如 下 : 
INSERT INTO PredictRisk 
(Id, Gender, Income, Job, Area, Risk) 


SELECT ID, Gender, Income, Job, Area, Risk 
FromCustomers 


上 两 行 表示 插入 的 挖掘 模型 或 挖掘 结构 ， 下 两 行 表 示 查 询 的 数据 行 以 及 对 应 的 模型 


16.2.3 ”模型 使 用 (预测 ) 


基本 语法 如 下 : 
SELECT [FLATTENED] [TOP <n>] <select expression list> 
FROM <model> | <sub select> 
[NATURAL] PREDICTION JOIN <source data query> 
[ON <join mapping list>] 
[WHERE <condition expression>] 
[ORDER BY «expression» [DESC|ASC]] 


n 一 一 指定 要 返回 数据 列 的 个 数 ， 属 性 为 整数 。 

select expression list 一 一 从 挖掘 模型 衍生 数据 标识 符 与 表达 式 的 分 隔 清单 
model 一 一 模型 名 称 。 

sub select ——IA KH] SELECT 语句 。 

source data query 一 一 来 源 查询 。 

比较 模型 中 的 数据 与 来 源 查询 中 的 数据 的 逻辑 表达 式 。 
限制 返回 值 的 条 件 。 


join mapping list 


condition expression: 
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返回 标量 值 的 表达 式 。 


expression 
实例 如 下 : 


SELECT NewCustomers.CustomerID, PredictRisk.Risk, CreditProbability 
(PredictRisk) 

FROMPredictRisk PREDICTION JOIN NewCustomers 

ON PredictRisk.Gender = NewCustomer.Gender 


AND PredictRisk.Income = NewCustomer.Income 
AND PredictRisk.Job = NewCustomer.Job 
AND PredictRisk.Area = NewCustomer.Area 


此 外 ， 若 想 删 除 挖掘 模型 或 挖 气 结构 可 使 用 : 


DROP MINING MODEL «model > 
DROP MINING STRUCTURE « structure» 


若 要 将 模型 或 结构 输出 或 备份 : 


EXPORT «object type» «object name>[, <object name>] [<object type» «object 
name»[, «object name] ] TO «filename» [WITH DEPENDENCIES] 


实例 如 下 : 
EXPORT MINING MODEL [PredictRiskTO 'C:\PredictRisk.abf' WITH DEPENDENCIES 
WITH DEPENDENCIES 指 的 是 将 所 有 相关 的 对 象 一 起 存 入 .abf 档案 中 ， 如 数据 来 源 和 
数据 来 源 查 看 等 。 
同 理 ， 要 将 .abf 档案 导入 语法 如 下 : 


IMPORT [«object type» «object name»[, «object name»] [«object type» 
<object name»[, «object name] ] ] FROM «filename» 


实例 如 下 : 


IMPORT FROM 'C:NPredict.Risk.abf' 
16.2.4 其 他 函数 语法 


BottomCount 
根据 次 序 表达 式 ， 以 递增 顺序 返回 一 个 数据 表 ， 并 包含 count 数目 的 最 底部 数据 行 。 
BottomCount (<table expression», «rank expression», <count>) 


BottomPercent 
类 似 BottomCount, 但 是 将 count 换 成 百分比 ， 同 样 包含 符合 指定 百分比 表达 式 之 最 小 
数目 的 最 底部 数据 行 。 


BottomPercent (<table expression», «rank expression», <percent>) 


BottomSum 


类 似 BottomCount， 但 是 将 count 换 成 sum， 同样 包含 符合 sum 表达 式 之 最 小 数目 的 
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最 底部 数据 行 。 
BottomSum(«table expression», «rank expression», <sum>) 


TopCount 
语法 与 功用 类 似 BottomCount， 但 是 为 递减 顺序 。 


TopCount(«table expression», «rank expression», <count>) 


TopPercent 
语法 与 功用 类 似 BottomPercent， 但 是 为 递减 顺序 。 


TopPercent(«table expression», «rank expression», <percent>) 


TopSum 
语法 与 功用 类 似 BottomSum， 但 是 为 递减 顺序 。 


TopSum(«table expression», «rank expression», <sum>) 


Cluster 

返回 最 可 能 包含 输入 案例 的 聚 类 。 不 需 参数 , 但 只 有 当 挖掘 模型 支持 聚 类 时 才 可 使 用 。 
Cluster 

ClusterProbability 


类 似 Cluster， 返 回 输入 案例 属于 聚 类 的 概率 。 同 样 要 挖掘 模型 支持 聚 类 时 才 可 使 用 。 
ClusterProbability([<Node_Caption>]) 


IsDescendant 

指出 目前 的 节点 是 否 从 指定 的 节点 衍生 ， 返 回 一 个 布尔 值 。 
IsDescendant (<NodeID>) 

IsInNode 

指出 指定 的 节点 是 否 包 含 案例 ， 同 样 返 回 一 个 布尔 值 。 
IsInNode (<NodeID>) 


Lag 
返回 当前 案例 的 日 期 与 数据 存在 的 最 后 日 期 之 间 的 时 间 差 。 返 回 一 个 整数 。 
Lag() 
Predict 
在 指定 的 数据 行 上 执行 预测 。 
Predict (<scalar column reference», [optionl], [option2], ,[INCLUDE NODE ID], 
n) Predict («table column reference», [optionl], [option2], , [INCLUDE NODE ID], n) 


PredictAdjustedProbability 
返回 指定 的 可 预测 数据 行 的 已 调整 概率 。 
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PredictAdjustedProbability(<scalar column reference>, [<predicted state>]) 


PredictAssociation 
预测 各 个 数据 列 的 关联 性 大 小 ， 可 用 于 决策 树 、 贝 叶 斯 和 类 神经 网 络 三 种 挖掘 模型 。 


PredictAssociation (<table column reference», optionl, option2, n ...) 


PredictCaseLikelihood 
返回 输入 案例 符合 现 有 模型 的 概率 。 此 函数 只 能 配合 聚 类 模型 使 用 〈 聚 类 和 时 序 聚 类 
两 种 挖掘 模型 )。 


PredictCaseLikelihood ([NORMALIZED|NONNORMALIZED]) 


PredictHistogram 
返回 代表 指定 数据 行 的 直方 图 的 数据 表 。 
PredictHistogram(<scalar Column reference> | <cluster column reference>) 


PredictNodeld 
返回 选取 案例 的 NodeID. 


PredictNodeId(<scalar column reference>) 


PredictProbability 
返回 指定 数据 行 的 概率 。 


PredictProbability(«scalar column reference», [<predicted state>]) 


PredictSequence 
预测 顺序 中 的 下 一 个 值 。 


PredictSequence («table column reference») 


PredictSequence («table column reference, n») 
PredictSequence («table column reference, n-start, n-end») 


PredictStdev 
返回 指定 数据 行 的 标准 偏差 。 
PredictStdev (<scalar column reference») 


PredictSupport 
返回 指定 数据 行 的 支持 值 。 
PredictSupport(«scalar column reference», [<predicted state>]) 


PredictTimeSeries 
返回 时 间 序 列 的 预测 值 。 


PredictTimeSeries (<table column reference>) 


PredictTimeSeries (<table column reference, n>) 


PredictTimeSeries (<table column reference, n-start, n-end>) 


204 一 


第 16 章 DMX A EI 


PredictTimeSeries (<scalar column reference>) 
PredictTimeSeries(«scalar column reference, n>) 


PredictTimeSeries (<scalar column reference, n-start, n-end>) 


PredictVariance 
返回 指定 数据 行 的 方差 。 


PredictVariance(«scalar column reference>) 


RangeMax 
探索 指定 的 分 割 式 数据 行 ， 返 回 预 测 分 组 的 组 


RangeMax (<scalar column reference>) 


"nn 


的 最 大 数值 。 


RangeMid 
探索 指定 的 分 割 式 数 据 行 ， 返 回 预测 分 组 的 组 距 的 中 值 。 


RangeMid(<scalar column reference») 


RangeMin 
探索 指定 的 分 割 式 数 据 行 ， 返 回 预测 分 组 的 组 吕 


RangeMin (<scalar column reference>) 


je 


的 最 小 数值 。 


163 DMX 数据 挖掘 语法 


本 节 将 针对 Microsoft SQL Server 2005 所 提供 的 九 种 数据 挖掘 的 方法 论 做 参数 介绍 ， 

并 提供 范例 供 读者 参考 。 在 分 别 介 绍 九 种 方法 论 的 DMX 数据 挖掘 语法 前 ， 先 学 习 建立 数 
据 挖 握 模 型 的 基本 语法 。 

CREATE [SESSION] MINING MODEL «model» 

( 

[(«column definition list»)] 

) 

USING «algorithm» [(«parameter list»)] [WITH DRILLTHROUGH] 

CREATE MINING MODEL «model» FROM PMML «xml string» 


其 中 各 个 自 变量 意义 如 表 16-1 所 示 。 


表 16-1 自 变量 


变量 名 称 Hi x 
model | 模型 的 唯一 名 称 
column definition list | 数据 行 定义 的 逗号 分 隔 清单 
algorithm 模型 算法 
选择 性 ， 提 供 者 自 定义 的 算法 参数 的 逗号 分 隔 清单 


XML string XML 编码 的 模型 (PMML)， 字 符 串 必 须 使 用 单 引号 C) 括 住 ， 仅 限 高 级 使 用 
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16.3.1 决策 树 
Microsoft 决策 树 算法 可 定义 多 个 可 能 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参数 。 
具体 的 参数 描述 如 表 16-2 所 示 。 
表 16-2 决策 树 参数 
参数 名 称 默 认 值 描述 


MAXIMUM INPUT ATTRIBUTES 255 RUE EN 
一 _ 属性 的 数目 ;此 值 设 定 为 0 将 关闭 功能 选项 

MAXIMUM OUTPUT ATTRIBUTES 255 5 a a 
5 = 属性 的 数目 ; 此 值 设 定 为 0 将 关闭 功能 选项 


决定 用 来 计算 分 叉 准则 的 方法 。 可 用 的 选项 : 
SCORE METHOD Entropy、Bayesian with K2 Prior 或 Bayesian 
Dirichlet Equivalent (BDE) Prior 
决定 用 来 分 义 节点 的 方法 。 可 用 的 选项 : 
Binary、Complete 或 Both 
决定 要 在 决策 树 中 产生 分 又 所 需 的 最 小 分 叶 
案例 数目 


空 制 决 策 树 的 成 长 。 低 值 会 增加 分 又 数目 ,而 
高 值 会 减少 分 又 数目 默认 值 依据 特定 模型 的 
属性 数目 而 有 所 不 同 ， 如 下 列 清单 所 述 ， 


SPLIT METHOD 


MINIMUM SUPPORT 


COMPLEXITY PENALTY CI 一 9 个 属性 ， 默 认 值 为 05 


@10~99 个 属性 ， 默 认 值 为 0.9 

@100 个 以 上 的 属性 ， 默 认 值 为 0.99 

强制 算法 使 用 指定 的 数据 行 作为 回归 输入 变 
量 ,不 考虑 算法 计算 出 来 的 数据 行 的 重要 性 。 
此 参数 只 用 于 预测 连续 属性 的 决策 树 


FORCED REGRESSOR 


[范例 ] 考虑 性 别 、 年 龄 、 身 份 、 收 入 、 账 户 金额 等 属性 ， 分 类 目标 为 信用 评级 〈 好 、 

不 好 )， 决 定 顾客 的 信用 评级 。 使 用 决策 树 分 类 建立 的 数据 挖掘 模型 程序 代码 如 下 。 

CREATE MINING MODEL Credit 

( 

[ID] LONG KEY, 

[Sex] TEXT DISCRETE, 

[Age] LONG DISCRETIZED, 

[Identity] TEXT DISCRETE, 

[Income] LONG DISCRETIZED, 

[Accounting] LONG DISCRETIZED, 


[CreditLevel] TEXT DISCRETE PREDICT 
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) 


USING Microsoft Decision Trees (MAXIMUM INPUT_ATTRIBUTES=0) 


16.3.2 贝 叶 斯 概率 分 类 


Microsoft 贝 叶 斯 概率 分 类 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 
的 参数 。 具 体 的 参数 描述 如 表 16-3 所 示 。 


参数 名 称 


表 16-3” 贝 叶 斯 概率 分 类 参数 
描述 


MAXIMUM INPUT ATTRIBUTES 


MAXIMUM OUTPUT ATTRIBUTES 


MINIMUM DEPENDENCY PROBABILITY 


MAXIMUM STATES 


指定 在 使 用 功能 选项 之 前 ， 算 法 可 以 处 
理 输 入 属性 的 最 大 数目 ;将 此 值 设 定 为 
0， 会 停 用 输入 属性 的 功能 选项 

指定 在 使 用 功能 选项 之 前 ， 算 法 可 以 处 
理 输出 属性 的 最 大 数目 。 将 此 值 设 定 为 
0， 会 停 用 输出 属性 的 功能 选项 

指定 介 于 输入 和 输出 属性 之 间 的 最 小 相 
依 概率 。 这 个 值 会 用 来 限制 算法 所 产生 
内 容 的 大 小 。 此 属性 可 设 定 为 0 到 1。 越 
大 的 值 会 减少 模型 内 容 中 的 属性 数目 
指定 算法 所 支持 属性 状态 的 最 大 数目 。 
如 果 属 性 拥有 的 状态 数目 大 于 状态 的 最 
大 数目 ， 算 法 会 使 用 属性 最 常用 的 状态 
并 将 其 余 的 状态 视 为 遗漏 


[范例 ] 考虑 性 别 、 年 龄 、 身 份 、 收 入 四 个 属性 ， 分 类 目标 为 办 卡 〈 会 、 不 会 )， 决 定 
会 员 是 否 会 办 理 信 用 卡 。 使 用 贝 叶 斯 概率 分 类 建立 的 数据 挖掘 模型 程序 代码 如 下 。 


CREATE MINING MODEL CreditCards 


( 
[ID] LONG KEY, 
[Sex] TEXT DISCRETE, 


[Age] LONG DISCRETIZED, 
[Identity] TEXT DISCRETE, 
[Income] LONG DISCRETIZED, 
[UseCard] TEXT DISCRETE PREDICT 


) 


USING Microsoft Naive Bayes (MAXIMUM INPUT ATTRIBUTES-5) 


16.3.3 ”关联 规则 


Microsoft 关联 分 析 算法 可 以 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参 
数 。 具 体 的 参数 描述 如 表 16-4 所 示 。 
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参数 名 称 


表 16-4 关联 分 析 参 数 
jd x 


MINIMUM SUPPORT 


指定 算法 产生 规则 之 前 必须 包含 项 目 集 的 最 小 
案例 数目 。 将 此 值 设 定 为 小 于 1， 是 以 总 案例 数 
的 百分比 来 指定 最 小 案例 数目 ;将 此 值 设 定 为 大 
于 1 的 整数 ,是 以 必须 包含 项 目 集 的 绝对 案例 数 
目 来 指定 最 小 案例 数目 。 如 果 内 存 有 限 , 算法 可 
增加 此 参数 的 值 


MAXIMUM SUPPORT 


指定 项 目 集 可 支持 的 最 大 案例 数目 .如果 此 值 小 
于 1， 则 此 值 代表 总 案例 数 的 百分比 ; 大 于 1 的 
值 代表 可 包含 项 目 集 的 绝对 案例 数目 


MINIMUM ITEMSET SIZE 


MAXIMUM ITEMSET SIZE 


MAXIMUM ITEMSET. COUNT 


MINIMUM PROBABILITY 


OPTIMIZED PREDICTION COUNT 


指定 项 目 集 内 所 允许 的 最 小 项 目 数目 
指定 项 目 集 内 所 允许 的 最 大 项 目 数目 .将 此 值 设 
定 为 0， 即 代表 项 目 集 没有 大 小 限制 
指定 要 产生 的 最 大 项 目 集 数 目 。 如 果 没 有 指定 数 
目 ， 算 法 会 产生 所 有 可 能 的 项 目 集 
指定 规则 为 True 的 最 小 概率 。 例 如 ， 将 此 值 设 
定 为 0.5 是 指定 不 产生 概率 小 于 50% 的 规则 
定义 要 为 预测 进行 快 取 或 优化 的 项 目 数目 


[范例 ] 考虑 性 别 、 年 龄 、 收 入 、 最 喜欢 的 演员 、 最 喜欢 的 导演 、 最 喜欢 的 电影 类 型 
等 属性 ， 决 定 最 有 卖点 的 电影 内 容 及 其 市 场 。 使 用 关联 规则 建立 的 数据 挖掘 模型 程序 代码 
如 下 。 
CREATE MINING MODEL GoodMovies 
( 
[ID] LONG KEY, 
[Sex] TEXT DISCRETE, 
[Age] LONG DISCRETIZED, 
[Income] LONG DISCRETIZED, 
[FavoriteActor] TEXT DISCRETE PREDICT, 
[FavoriteDirector] TEXT DISCRETE PREDICT, 
[FavoriteMovie] TEXT DISCRETE PREDICT 
) 
USINGMicrosoft Association Rules (MINIMUM SUPPORT-0.05, 
MINIMUM PROBABILITY-0.70) 

1634 XX ZW 

Microsoft 聚 类 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 
的 参数 描述 如 表 16-5 所 示 。 
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表 16-5 聚 类 算法 参数 


参数 名 称 Sk 认 f 描述 

指定 算法 要 使 用 的 聚 类 方法 。 可 用 的 聚 类 方法 有 : 
可 扩充 的 EM 不 可 扩充 的 EM 可 扩充 的 K-means 
和 不 可 扩充 的 K-means 


CLUSTERING METHOD 


立 聚 类 数目 ， 则 算法 会 尽 可 能 建立 最 多 的 聚 类 。 


E 
指定 算法 要 建立 的 聚 类 数目 。 如 果 无 法 从 数据 建 
人 将 CLUSTER. COUNT 设 定 为 0 会 造成 算法 使 用 
启发 法 ， 对 于 建立 的 聚 类 数 做 出 最 好 的 决定 
指定 在 模型 建立 的 初始 阶段 ， 用 于 随机 产生 聚 类 
CLUSTER SEED 的 种 子 


MINIMUM SUPPORT 指定 每 一 个 聚 类 的 最 小 观测 数目 
MODELLING CARDINALITY 指定 在 聚 类 处 理 期 间 构 建 的 范例 模型 数目 
指定 用 来 决定 何 时 到 达 收敛 状态 以 及 算法 完成 建 
立 模型 的 值 。 当 聚 类 概率 的 整体 变更 小 于 本 参数 
值 除 以 模型 大 小 的 比率 时 ， 就 到 达 收敛 状态 
指定 如 果 CLUSTERING_METHOD 参数 设 定 为 
可 扩充 的 聚 类 方法 之 一 时 ， 算 法 使 用 在 每 个 进程 
SAMPLE SIZE 50 000 上 的 观测 数目 。 将 本 参数 设 定 为 0 会 导致 将 整个 
数据 集 在 单一 进程 中 聚 类 。 这 会 造成 内 存 和 效能 
的 问题 
指定 使 用 功能 选项 之 前 ， 算 法 可 以 处 理 输入 属性 
MAXIMUM INPUT ATTRIBUTES 255 的 最 大 数目 。 将 此 值 设 定 为 0 即 表示 属性 数目 没 
有 上 限 


指定 算法 所 支持 属性 状态 的 最 大 数目 。 如 果 属 性 
MAXIMUM STATES 的 状态 数目 大 于 状态 数目 上 限 ， 则 算法 会 使 用 属 


STOPPING_TOLERANCE 


性 最 常用 的 状态 ， 而 忽略 其 余 状态 
[范例 ] 以 下 范例 以 顾客 的 年 龄 与 收入 作为 分 群 维度 做 聚 类 分 析 。 


CREATE MINING MODEL Customer Clustering 

( 

[ID] LONG KEY, 

[Age] LONG DISCRETIZED, 

[Income] LONG DISCRETIZED 

) 

USING Microsoft Clustering (CLUSTERING METHOD=3) 


16.3.5 时序 聚 类 


Microsoft 时 序 聚 类 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参数 。 
具体 的 参数 描述 如 表 16-6 所 示 。 
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表 16-6 ”时序 聚 类 算法 参数 


参数 名 称 i o x 

指定 算法 要 建立 的 聚 类 数目 。 如 果 无 法 从 数据 建立 
聚 类 数目 ， 则 算法 会 尽 可 能 建立 最 多 的 聚 类 。 将 本 
参数 值 设 定 为 0, 会 导致 算法 使 用 启发 式 来 判断 可 建 
立 的 最 佳 聚 类 数目 

指定 每 一 个 聚 类 的 最 小 案例 数目 

指定 一 个 序列 可 以 具有 的 最 大 状态 数目 。 将 此 值 设 
定 为 大 于 100 的 数字 将 可 能 导致 算法 建立 一 个 无 法 
提供 有 用 信息 的 模型 

针对 算法 支持 的 非 序列 属性 指定 最 大 状态 数目 。 如 
果 非 序列 属性 的 状态 数目 大 于 最 大 状态 数目 ， 算 法 
会 使 用 该 属性 最 常用 的 状态 ， 并 将 其 余 的 状态 视 为 
遗漏 


[范例 ] 考虑 Web 应 用 程序 的 用 户 经 常 以 各 种 路 径 浏览 网 站 ， 根 据 浏览 站 点 的 页 面 类 

型 对 用 户 进行 分 组 ， 以 帮助 分 析 消 费 者 并 决定 消费 者 可 能 的 浏览 网 站 ， 提 高 网 站 效益 。 

CREATE MINING MODEL WebSequence 

( 

[CustomerId] TEXT KEY, 

[Location] TEXT DISCRETE, 

[ClickPath] TABLE PREDICT 

( 


CLUSTER COUNT 


MINIMUM SUPPORT 


MAXIMUM SEQUENCE STATES 


MAXIMUM STATES 


[SequenceId] LONG KEY Sequence, 
[URLCategory] TEXT, 
) 


) 
USING Microsoft Sequence Clustering (CLUSTER COUNT-0) 


16.3.6 ”线性 回归 


Microsoft 线性 回归 分 析 算 法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 
参数 。 具 体 的 参数 描述 如 表 16-7 所 示 。 


表 16-7 线性 回归 分 析 参 数 


参数 名 称 jo x 

定义 使 用 功能 选项 之 前 ， 算 法 可 以 处 理 输入 属性 
的 数目 。 如 此 值 设 定 为 0 将 关闭 功能 选项 
定义 使 用 功能 选项 之 前 ， 算 法 可 以 处 理 输出 属性 
的 数目 。 如 此 值 设 定 为 0 将 关闭 功能 选项 


MAXIMUM INPUT ATTRIBUTES 


MAXIMUM OUTPUT ATTRIBUTES 
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参数 名 称 


描述 


FORCED REGRESSOR 


[范例 ] 用 身高 预测 体 习 


usd 


强制 算法 使 用 指定 的 数据 行 作为 回归 输入 变量 ， 
不 考虑 算法 计算 出 来 的 数据 行 的 重要 性 


， 使 用 线性 回归 分 析 建 立 的 数据 挖掘 模型 程序 代码 如 下 。 


CREATE MINING MODEL PreWeight 


( 
[Id] LONG KEY, 


[Height] LONG DISCRETE, 
[Weight] LONG DISCRETE PREDICT 


) 


USING Microsoft Linear Regression 


16.3.7 Logistic 回归 


Microsoft Logistic 回归 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参 
数 。 具 体 的 参数 描述 如 表 16-8 所 示 。 


参数 名 称 


HOLDOUT PERCENTAGE 


HOLDOUT SEED 


MAXIMUM INPUT ATTRIBUTES 


MAXIMUM OUTPUT ATTRIBUTES 


MAXIMUM STATES 


表 16-8 Logistic 回归 参数 


描述 
指定 用 于 计算 测试 错误 的 训练 数据 内 的 观测 百 
分 比 ， 本 参数 在 训练 挖掘 模型 时 是 作为 停止 准 
则 的 一 部 分 
在 随机 决定 测试 数据 时 ， 指 定 用 来 植 入 虚拟 随 
机 产生 器 的 数字 。 如 果 本 参数 值 设 定 为 0， 则 
此 算法 会 依据 挖掘 模型 的 名 称 产 生 种 子 ， 以 保 
证 在 重新 处 理 期 间 模 型 内 容 保持 不 变 
定义 使 用 功能 选项 之 前 ， 算 法 可 以 处 理 输入 属 
性 的 数目 ; 如 此 值 设 定 为 0 将 关闭 功能 选项 
功能 选项 之 前 ， 算 法 可 以 处 理 输出 属 
性 的 数目 ; 如 此 值 设 定 为 0 将 关闭 功能 选项 
指定 算法 所 支持 属性 状态 的 最 大 数目 。 如 果 属 
性 拥有 的 状态 数目 大 于 状态 的 最 大 数目 ， 算 法 
会 使 用 属性 最 常用 的 状态 ， 并 忽略 其 余 的 状态 


SAMPLE SIZE 


指定 用 来 训练 模型 的 观测 数目 。 此 算法 提供 者 
会 使 用 此 数字 或 不 包括 在 测试 百分比 (由 
HOLDOUT_PERCENTAGE 参数 指定 ) 中 的 总 
观测 数 的 百分比 ， 以 较 小 者 为 准 。 换 句 话 说 
如 果 HOLDOUT PERCENTAGE 设 定 为 30, 则 
算法 将 使 用 此 参数 的 值 ， 或 等 于 总 观测 数 70% 
的 值 ， 以 较 小 者 为 准 
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[范例 ] 考虑 有 肥胖 或 抽烟 情形 的 人 会 得 高 血压 的 人 数 。 
CREATE MINING MODEL Logistic Hypertension 
( 
[No] LONG KEY, 
[Fat] Boolean DISCRETE, 
[Smoke] Boolean DISCRETE, 
[People] LONG DISCRETE, 
[Hypertension] LONG DISCRETE PREDICT 
) 


USING Microsoft Logistic Regression 


16.3.8 ”类 神经 网 络 


Microsoft 类 神经 网 络 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参 
数 。 具 体 的 参数 描述 如 表 16-9 所 示 。 


表 16-9 类 神经 网 络 参数 


参数 名 称 Sk 认 fü 描述 

指定 隐藏 神经 与 输入 和 输出 神经 的 比例 。 使 用 下 列 
公式 决定 隐藏 层 中 的 初始 神经 数目 
HIDDEN NODE RATIO * SQRT(Total input neurons 
* Total output neurons) 

指定 用 来 计算 测试 错误 训练 数据 内 的 观测 百分比 ， 
这 可 作为 训练 挖 据 模 型 时 停止 准则 的 一 部 分 

在 算法 随机 决定 测试 数据 时 , 指定 用 来 植 入 虚拟 随 
机 产生 器 的 数字 。 如 果 此 参数 设 定 为 0， 此 算法 会 
依据 挖掘 模 型 的 名 称 产生 种 子 ， 以 保证 在 重新 处 理 
期 间 ， 模 型 内 容 保持 不 变 

决定 在 运用 功能 选项 之 前 可 提供 给 算法 之 输入 属 


HIDDEN NODE RATIO 


HOLDOUT PERCENTAGE 3 


HOLDOUT SEED 


E 
° ° 


MAXIMUM INPUT ATTRIBUTES 255 性 的 最 大 数目 。 将 此 值 设 定 为 0， 会 停 用 输入 属性 
的 功能 选项 
决定 在 运用 功能 选项 之 前 可 提供 给 算法 之 输出 属 
MAXIMUM OUTPUT ATTRIBUTES 255 性 的 最 大 数目 。 将 此 值 设 定 为 0， 会 停 用 输出 属性 
的 功能 选项 


指定 算法 支持 的 每 个 属性 之 分 隔 状 态 的 最 大 数目 。 
如 果 特定 属性 的 状态 数目 大 于 对 这 个 参数 所 指定 
的 数字 ， 则 算法 会 使 用 该 属性 最 常用 的 状态 ， 并 将 


MAXIMUM STATES 
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参数 名 称 


SAMPLE SIZE 


[范例 ] 以 性 别 、 年 龄 、 职 业 、 教 育 程度 、 


描述 

指定 用 来 训练 模型 的 观测 数目 。 此 算法 会 使 用 此 
数字 或 不 包括 在 测试 数据 中 之 总 观测 数 的 百 分 
LE (H HOLDOUT PERCENTAGE 参数 指定 )， 
以 较 小 者 为 准 。 换 句 话说， 如 果 HOLDOUT 
PERCENTAGE 是 设 定 为 30， 则 算法 将 使 用 这 个 
参数 的 值 或 等 于 总 观测 数 70% 的 值 ， 以 较 小 者 
为 准 


小 孩 数 等 属性 作为 输入 变量 ， 预 测 会 员 拥 


有 的 信用 卡 数 。 使 用 类 神经 网 络 建立 的 数据 挖掘 模型 程序 代码 如 下 。 


CREATE MINING MODEL CardNumber 

( 

[ID] LONG KEY, 

[Sex] TEXT DISCRETE, 

[Age] LONG DISCRETIZED, 
[Occupation] TEXT DISCRETE, 
[Education] TEXT DISCRETE, 
[TotalChildren] LONG DISCRETIZED, 
[OwnCard] LONG DISCRETE PREDICT 

) 


USING Microsoft_Neural_Network (HOLDOUT_PERCENTAGE=20) 


16.3.9 时 间 序 列 


Microsoft 时 间 序 列 算法 可 定义 多 个 会 影响 所 产生 的 挖掘 模型 的 效能 和 精确 度 的 参数 。 


具体 的 参数 描述 如 表 16-10 所 示 。 


表 16-10 ”时 间 序 列 参数 


参数 名 称 


描述 


MINIMUM SUPPORT 


指定 要 在 每 一 个 时 间 序 列 树 中 产生 分 割 所 需 时 
间 配 量 的 最 小 数目 


COMPLEXITY PENALTY 


PERIODICITY HINT 


控制 决策 树 的 成 长 。 减 少 此 值 可 增加 分 割 的 可 能 
性 。 增 加 此 值 则 减少 分 割 的 可 能 性 

提供 算法 关于 数据 周期 性 的 提示 。 例 如 ， 若 每 年 
销售 不 同 ， 序列 中 的 度量 单位 是 月 ， 则 周期 性 是 
12. 此 参数 采用 fn[, n]} 的 格式 , 其 中 是 任何 正 
数 。 方 括号 0] 内 的 nmn 是 选择 性 的 ， 可 以 视 需 要 而 
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参数 名 称 jd x 


指定 缺失 值 替换 的 方法 。 依 默认 , 数据 中 不 允许 
有 不 规则 的 间距 或 不 完全 的 边缘 。 以 下 是 可 用 来 
填 满 不 规 则 间距 或 边缘 的 方法 : 依据 上 一 个 
(Previous) 值 、 依 据 平 均 (Mean) 值 或 依据 特 
定数 值 常数 (Numeric Constant) 
指定 0 和 1 之 问 的 数值 , 用 来 检测 周期 性 。 将 这 
个 值 设 定 为 越 接近 1， 就 会 探索 更 多 接近 周期 性 
的 模型 ， 并 自动 产生 周期 性 提示 。 处 理 大 量 周 期 
性 提示 时 , 可 能 会 造成 更 长 的 模型 培训 时 间 及 更 
精确 的 模型 。 如 果 将 此 值 设 定 为 越 接近 0， 则 只 
会 检测 到 周期 性 很 强 的 数据 
指定 要 建立 的 历程 记录 模型 数目 
指定 两 个 连续 历程 记录 模型 之 间 的 时 间 延 迟 。 例 
如 ， 将 此 值 设 定 为 g， 会 造成 要 建立 历程 记录 模 
型 的 数据 ， 按 g、2*g、3*g 等 的 间隔 而 产生 时 间 
配 量 截 断 


[范例 ] 假定 政府 要 预测 未 来 中 国 台湾 地 区 人 口 总 数 ， 使 用 时 间 序 列 建立 的 数据 挖掘 


MISSING VALUE SUBSTITUTION 


AUTO DETECT PERIODICITY 


HISTORIC MODEL COUNT 


HISTORICAL MODEL GAP 


模型 程序 代码 如 下 。 


CREATE MINING MODEL PopulationNumber 
( 

[Time] DATE KEY, 

[Population] LONG DISCRETIZED PREDICT 
) 

USING Microsoft Time Series 


16.4 DMX 应 用 范例 


以 下 对 DMX 做 较为 完整 的 应 用 范例 介绍 ， 让 读者 能 更 清楚 地 知道 DMX 的 用 法 。 在 


本 节 的 范例 介绍 中 ， 以 一 般 而 言 的 数据 挖掘 所 包含 的 五 项 功能 :分 类 (classification); 估 
il (estimation); 预测 (prediction); 关联 分 组 (affinity grouping); Æ (clustering)， 对 
各 类 分 别 举 一 范 例 做 DMX 语法 介绍 。 需 要 注意 的 是 ， 以 下 数据 来 源 扩 展 名 为 “.xls”， 请 
先 使 用 Microsoft SQL Server Management Studio 导入 来 源 档案 进入 数据 库 。 
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164.4 分 类 


所 谓 分 类 (classification )， 即 为 按照 分 析 对 象 的 属性 分 门 别 类 加 以 定义 ， 建 立 类 别 
(class)。 例 如 ， 将 信用 卡 申 请 者 的 申请 结果 区 分 为 核 卡 或 不 核 卡 。 使 用 的 技巧 有 决策 树 
(decision tree) 等 。 以 下 举 决 策 树 技巧 作为 范例 。 

数据 来 源 : 投保 .xls (导入 成 为 数据 库 Insure) 

目标 : 

以 保单 号 码 (Policy No) 为 主键 ,缴费 方式 (Method), WERA 1 (Insur type4)、 
保险 型 态 2 (Insurance_type )、 性 别 (Rate_sex )、 保 额 组 别 (Face_group)、 理 赔 金 组 别 
(Claim group) 作为 自 变 量 ， 有 无 理赔 (Cl flag) 作为 预测 变量 进行 分 类 ， 决 定理 赔 行 为 
判定 。 

模型 建立 : 

CREATE MINING MODEL InsureDecisiontree 
( 

[Policy No] TEXT KEY, 

[Insur type4] TEXT DISCRETE, 
[Insurance type] TEXT DISCRETE, 

[Rate sex] TEXT DISCRETE, 

[Face group] TEXT DISCRETE, 

[Claim group] TEXT DISCRETE, 

[Cl flag] TEXT DISCRETE PREDICT 


) 
USING Microsoft Decision Trees 


数据 来 源 链接 字符 串 : 
Provider-SQLNCLI.1; Data Source-DM-SERVER; Integrated Security-SSPI; 
Initial Catalog-Insure 


根据 数据 挖掘 模型 预测 行为 : 


SELECT 
t.[face_group], [Insure] . [C1 Flag] 
From 
[Insure] 
PREDICTION JOIN 
OPENQUERY ( [Insure], 
"SELECT 
[method], 
[insur_type4], 
[insurance_type], 
[rate_sex], 
[face group], 


771215 


1i | 692007 数据 挖 握 完 全 手册 


[claim group], 
[cl flag] 
FROM 
[dbo] . [insure$] 
"y AS t 
ON 
[Insure].[Method] = t.[method] AND 
[Insure].[Insur Type4] - t.[insur type4] AND 


[Insure].[Insurance Type] - t.[insurance type] AND 
[Insure].[Rate Sex] - t.[rate sex] AND 
[Insure].[Face Group] - t.[face group] AND 
[Insure].[Claim Group] - t.[claim group] AND 
[Insure].[Cl Flag] = t.[c1l flag] 


16.4. ”估计 


根据 已 有 连续 性 数值 相关 属性 数据 ， 以 获得 某 一 属性 的 未 知 值 。 例 如 按照 信用 卡 申请 
者 的 教育 程度 、 行 为 类 别 来 估计 (estimation〉 其 信用 卡 消费 量 。 使 用 的 技巧 包括 回归 分 析 
及 类 神经 网 络 等 。 以 下 使 用 线性 回归 方法 为 例 估计 模型 。 
例如 对 一 批 投保 数据 建立 回归 模型 ， 其 中 ， 保 单 号 码 (Policy No) 为 主键 ， 保 额 
(Face amt 作为 自 变量 ， 缴 费 年 期 (Collect_year) 作为 预测 变量 。 
模型 建立 : 
CREATE MINING MODEL InsureRegression 
( 


[Policy No] TEXT KEY, 
[Face amt] DOUBLE CONTINUOUS, 


[Collect year] DOUBLE CONTINUOUS PREDICT 
) 
USING Microsoft Linear Regression 


数据 来 源 链接 字符 串 : 


Provider-SQLNCLI.1; Data Source-DM-SERVER; Integrated Security-SSPI; 
Initial Catalog-Insure 


以 下 为 本 例 的 挖掘 模型 预测 语法 : 


SELECT 
t.[collect year] 
From 
[Insure R] 
PREDICTION JOIN 
OPENQUERY ( [Insure], 
' SELECT 


ae 
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[collect_year_ind], 
[collect_year], 
[face_amt] 


FROM 
[dbo] . [insure$] 
*) AS t 
ON 
[Insure R].[Face Amt] - t.[face amt] AND 
[Insure R].[Collect Year] - t.[collect year] 


16.4.3 ”预测 


根据 对 象 属性 的 过 去 观察 值 来 预测 (prediction) 该 属性 的 未 来 值 。 例 如 由 顾客 过 去 的 
刷卡 消费 量 预测 其 未 来 的 刷卡 消费 量 。 使 用 的 技巧 包括 回归 分 析 、 时 间 序 列 分 析 及 类 神经 
网 络 。 以 下 使 用 时 间 序 列 分 析 为 例 预 测 模型 。 

以 一 批 人 口 数据 为 例 ， 预 测 明 年 人 口水 平 。 其 中 ， 年 份 Year) 为 主键 ，15 岁 以 上 人 
口 总 计 (Population〉 作 为 输入 及 预测 变量 。 

模型 建立 : 

CREATE MINING MODEL Population TimeSeries 
ea LONG KEY TIME, 
[Population] DOUBLE CONTINUOUS PREDICT 


) 
USING Microsoft Time Series 


数据 来 源 链 接 字 符 串 : 

Provider-SQLNCLI.1; Data Source-DM-SERVER; Integrated Security-SSPI; 
Initial Catalog-Population 
如 要 进行 人 口 预 测 ， 可 使 用 以 下 语法 做 未 来 5 年 的 人 口 预测 : 


SELECT PredictTimeSeries (Population,5) AS FuturePopulation 
FROM Population TimeSeries 


1644 关联 分 组 


所 谓 关联 分 组 Caffinity grouping)， 就 是 在 所 有 对 象 中 ， 将 相互 关联 的 对 象 放 在 一 起 。 
例如 超市 中 相关 的 体 洗 用 品 〈 牙 刷 、 牙 膏 、 牙 线 ) 应 放 在 同一 货架 上 。 在 客户 营销 系统 上 ， 
此 种 功能 可 用 来 确认 交叉 销售 (cross selling) 的 机 会 以 设计 出 吸引 人 的 产品 聚 类 从 而 增加 
销售 。 

对 投保 数据 进行 关联 分 组 。 其 中 ， 保 单 号 码 CPolicy No) 为 主键 ， 性 别 (Rate sex). 
缴费 方式 (Method)、 保 险 形态 1 (Insur type4)、 保 险 形态 2 (Insurance type)、 通 路 
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(CChannel code)、 地 区 别 〈Company_code) 作为 输入 变量 ， 缴 费 方式 (Method)、 保 险 型 
态 1 (Insur type4)、 保 险 型 态 2 (Insurance type)、 通 路 (Channel code )、 地 区 别 
(Company code) 作为 预测 变量 。 
模型 建立 : 

CREATE MINING MODEL Insure_Association 

( 

[Policy No] TEXT KEY, 

[Rate_sex] TEXT DISCRETE, 

[Method] TEXT DISCRETE PREDICT, 

[Insur_type4] TEXT DISCRETE PREDICT, 

[Insurance_type] TEXT DISCRETE PREDICT, 

[Channel_code] TEXT DISCRETE PREDICT, 

[Company_code] TEXT DISCRETE PREDICT 


) 
USING Microsoft Association Rules (MINIMUM PROBABILITY=0.60) 


数据 来 源 链 接 字 符 串 : 


Provider-SQLNCLI.1; Data Source-DM-SERVER; Integrated Security-SSPI; 


Initial Catalog-Insure 
在 模型 建立 完成 后 ， 可 以 从 内 容 中 检索 数据 集 及 规则 ， 以 检索 数据 集 I 为 例 ， 


SELECT 
Node Description 
FROM 
Insure Clustering.Content 
WHERE 
Node Type-'I' 


164.5 X3 


将 异 质 总 体 中 分 割 为 较 具 同 质 性 的 聚 类 〈clusters )， 相 当 于 营销 术语 中 的 细 分 
(segmentation)， 但 是 聚 类 分 析 事 先 并 未 对 细 分 加 以 定义 ， 而 是 利用 某 种 算法 细 分 数据 。 
对 投保 数据 进行 聚 类 分 析 。 其 中 ， 保 单 号 码 (Policy No) 为 主键 ， 将 理赔 件 次 
(Claim_cnt)， 投 保 次 数 (Po cn). 作为 输入 变量 。 
模型 建立 : 
CREATE MINING MODEL Insure Clustering 
( 
[Policy No] TEXT KEY, 
[Claim cnt] DOUBLE CONTINUOUS, 
[Po cnt] DOUBLE CONTINUOUS 
) 
USING Microsoft Clustering 


as 
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数据 来 源 链 接 字 符 串 : 
Provider-SQLNCLI.1; Data Source-DM-SERVER; Integrated Security-SSPI; 
Initial Catalog-Insure 


如 需 检索 单一 聚 类 内 容 ， 可 使 用 以 下 语法 来 做 查询 ， 以 检索 聚 类 1 为 例 : 


SELECT 七 .* FROM Insure Clustering 
NATURAL PREDICTION JOIN <Input Set> AS t 
WHERE Cluster ()=' RX 1" 
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其 他 分 析 工 具 介 绍 


分 析 关 键 影响 因素 
检测 类 别 

从 示例 填充 

预测 

突出 显示 异常 值 

应 用 场景 分 析 

Visio 2007 数据 透视 分 析 
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分 析 关 键 影响 因素 工具 可 选取 包含 所 要 结果 或 目标 值 的 数据 行 ， 然 后 分 析 数 据 集 内 的 
模型 ， 以 判断 哪些 因素 对 结果 的 影响 力 最 强 。 例 如 ， 如 果 客 户 列表 包含 了 会 显示 每 一 位 客 
户 在 过 去 一 年 所 购买 的 项 目 总 计 的 数据 行 ， 则 可 以 分 析 此 数据 表 来 判断 哪些 项 目 是 客户 购 


买 最 多 的 。 


首先 启动 Excel 2007 SQL 2005 DM addin 范例 ,在 Excel 数据 表 选 项 上 右 击 , 在 弹出 的 


快捷 菜单 中 选择 【 自 定义 快速 访问 工具 栏 】 命 令 ， 如 图 17-1 所 示 。 


Ga) DMAddins_SampleData - Microsoft Excel 
v 


a 自 定义 快速 访问 工具 栏 (O.… | 
EE g a5 ds X WS £ & &J A EHER ESEURGRIGLT RES (S) 
T NEN. X m m mm S AUS OM 功能 区 最 小 化 (N) 
ma Eua. 分区 | 类 计 2 联 m 级 mm e m w 


-5x 


-ox 


SQL Server 2005 Office 2007 数据 挖掘 外 接 程 序 示例 数据 


EAN EREE Sw 这 些 数 据 取 自 SQL Server 2005 DHEBU 
AdventureWorks 示例 数据 库 . 请 注意 ， 尽 管 使 用 这 些 工具 会 发 现 一 些 模 式 ， 但 是 ， 这 些 数据 是 人 工 生 | 
， 这 些 模式 已 如 经 过 和 尽管 已 经 采取 措施 使 根据 数据 挖 痢 算法 发 RSS Sis s 
EXZRAESNG BRTERUACUEREUMPDANEA, REICUERULRIUINSIUMUN 
示例 。 


WET 
适合 大 多 数 表 分 析 工 具 使 用 的 数据 预测 和 从 示例 填充 除外 》. 
用 于 “数据 控 据 ”条 带 上 的 预测 表 分 析 工具 或 预测 模型 任务 的 数据 , 
用 于 从 示例 填充 表 分 析 工 具 的 数据 。 
用 于 为 “数据 挖 据 ” 条 带 上 的 大 多 数 模型 定型 的 源 数据 。 
使 用 为 数据 分 区 向 导 的 默认 设置 从 “ 源 数 据 ” 页 拆 分 的 定型 数据 。 
使 用 为 数据 分 区 向 导 的 默认 设置 从 “ 源 数 据 ” 页 拆 分 的 测试 数据 。 
创建 模型 后 可 用 于 “数据 挖 据 ”条 带 上 的 查询 数据 任务 的 一 组 客户 数据 . 
用 于 “数据 挖 所 ”条 带 上 的 关联 任务 的 市 场 复 数据 


M + v M| Introduction, Table Analysis Tools Sample Forecasting, Fill From Example, Source Date, T| 
mum || [ee a a 


17-1 Excel 2007 SQL 2005 DM addin 范例 


在 如 图 17-2 所 示 的 【Excel 选项 】 对 话 框 中 单 击 【 加 载 项 】 按 钮 ， 并 选择 分 析 工 具 库 


然后 执行 。 


在 如 图 17-3 所 示 的 【加 载 宏 】 对 话 框 中 ， 选 中 【分 析 工 具 库 】 复 选 框 。 
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了 zj 
—wm i 
-- [gy 0828 Microsoft Office WSA, 
公式 
校对 
保存 
高 级 活动 应 用 程序 加 载 项 
自 定义 Chinese Translation Addin DA-IAADDINSVCSCCONV.DLL COM 加载 项 
Internet Assistant VBA DA.fficel2WibranAHTMLXLAM Excel 加 载 项 
[m a Office Special Symbol Input Add-in DA.IAADDINSASYMINPUT.DLL COM 加 载 项 
信任 中 心 SQLServer.DMClientXLAddIn CN DOWSAMsystem32Vmscoree.dll COM 加 载 项 
_ SQLServer.DMXLAddIn CA.DOWSWystem32wnscoree.dll COM 加 载 项 
s= 分 析 工具 库 D3.ranAAnalysi'ANALYS32XLL Excel 加 载 项 
规划 求解 加 载 项 DA-Alibrary\SOLVER\solverxlam Excel 加 载 项 


非 活动 应 用 程序 加 载 项 
Microsoft. SqlServer.DataMining.Office.Excel.ClientConnect C\.DOWS\system32\mscoree.dll Excel 加 载 项 


Microsoft.SqlServer.DataMining.Office.Excel.Connect CVDOWS\system32Mmscoree.dll Excel jna 
标签 打印 向 导 DA. abel PrintVabelprintxlam Excel 加 载 项 
不 可 见 内 容 DA-ffice\Officel2\OFFRHD.DLL 。 文档 检查 器 
查阅 向 导 DA.cel2WibranALOOKUP.XLAM Excel 加 载 项 
分 析 工 具 库 - VBA DA-y\Analysis\ATPVBAEN.XLAM Excel 加 载 项 
条 件 求 和 向 导 DA-ffice12A\Libray\SUMIFXLAM Excel 2087 v] 


WD: Chinese Translation Addin 
发 布 者 : Microsoft Corporation 
(uH: DAProgram Files\Microsoft Office\Office12\ADDINS\TCSCCONV.DLL 


说 明 — COM addin that translates between Traditional Chinese and Simplified Chinese. 


管理 :| Excel 加 载 项 v| — S689 Kg. 


图 17-2 [Excel 选项 】 对 话 框 


xl 
IBI W: 


V Internet Assistant VBA z 


[V Microsoft. SqlServer. Datallining. Office. Excel. ClientConnect 


V Microsoft. SqlServer. Datallining. Office. Excel. Connect 取消 
C 标签 打印 向 导 
DE 


nawa D pn WAW... 
v 一 VBA 


IRE 


提供 用 于 统计 和 工程 分 析 的 数据 分 析 工 具 


图 17-3 【加 载 宏 】 对 话 框 


Microsoft Office Excel 会 弹出 一 个 对 话 框 确认 是 否 加 载 项 ， 确 定 后 Microsoft Office Fl 
动 完成 安装 。 

启动 Excel 2007 SQL 2005 DM addin 范例 ， 选 择 所 要 分 析 的 数据 ， 如 图 17-4 所 示 。 

在 Excel 工具 栏 会 出 现 【 分 析 】 和 【设计 】 选 项 ， 如 图 17-5 所 示 。 
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SQL Server 2005 Office 2007 数据 控 气 外接 程 序 示例 数据 


此 文件 包含 适合 试用 数据 挖 扎 外 接 程 序 的 数据 集 . 这 些 获 据 取 自 SQL Server 2005 附带 的 

AdventureWorks FAFE. 请 注意 ， 尽 管 使 用 这 些 工 具 会 发 现 一 些 模式 ， 但 是 ， 这 些 数据 是 人 工 生成 

的 ， 这 些 模式 已 经 经 过 数据 集 设计 帮 人 工 模拟 。 尽 管 已 经 采取 措施 使 根据 数据 控 据 算法 发 现 的 这 些 樟 式 尽 可 

be 但 是 不 应 该 认为 它们 是 现实 世界 中 的 奥 型 模式 ， 只 能 作为 使 用 直 实 数据 时 所 获得 结果 
示例 。 


Dga 
适 台 大 多 数 才 分 析 工 具 使 用 的 教 据 〔 了 预测 和 从 示例 填充 除外 ) . 
用 于 “数据 挖 扎 ” 条 带 上 的 预测 表 分 析 工 具 或 预测 模型 任务 的 数据 。 
用 于 从 示例 填充 表 分 析 工 具 的 数据 ， 
用 于 为 “数据 控 据 ”条 带 上 的 大 多 数 模型 定型 的 源 歼 据 - 
使 用 为 歼 掺 分 区 向 导 的 歌 认 设 辕 从 “ 海 歼 据 ” 页 拆 分 的 定型 数据 - 
使 用 为 数据 分 区 向 导 的 天 认 设置 从 “ 源 教 据 ”页 拆 分 的 测试 数据 - 
创 定 模型 后 可 用 于 “数据 控 扬 ”条 带 上 的 查询 数据 任务 的 一 组 客户 数据 , 
用 于 “数据 控 气 ”条 项 上 的 关联 任务 的 市 场 等 数据 。 


17-4 启动 Excel 2007 SQL 2005 DM addin 范例 


加 四 ee DMAddins_SampleData.xlsx - Microsoft Excel *IR -0x 
开始 ”插入 ”页面 布局 ”公式 ME +A Am MWEE MRLE J 设计 @- "x 
jor EAE 从 示 。 预 ” 交 出 显 应 用 场 ”< 无 = 

影响 因素 类别 | 例 填充 W TAWE 景 分 析 - 连接 > R- | 


ZALA 连接 ”帮助 
Ad "a 12496 Y 


mr... B I i D E F G. H n I ] 
1 用 于 分 析 关键 影响 因素 、 检 测 类 别 、 突 出 显示 异常 值 和 应 用 场景 分 析 的 示例 数据 。 
2 
3 [Cender - pet - chi 1 dr - Education - Drm - Home Orner - | EL peer. 
4 40000 — 1 Bachelors Skilled Nana — Yes 0-1 Niles 
5 = 3 Partial College Clerical Yes | m 0-1 Miles _ 
6 5 Partial College Professional No 2 
Ey O Bachelors Professional Yes 1 5-10 Miles 
8 25597 Single 0 Bachelors Clerical No 0 0-1 Niles 
9 [13507 Married 2 Partial College Manual Yes O 1-2 Niles 
16000 2 HighSchool M Yes 4 
- 40000 1 Bachelors Skilled Nama — Yes 0 - 
20000 — 2 Partial High SchiClerical Yes B 
20000 — 2 Partial College Manu Yes 1 1 
有 - Skilled No E 
9000 0 Professional No 4 
16 11434 pene 170000 5 Partial College Professional - Yes 4 E 
17 2532; 2 _ Partial College Yes 1 
18 | Fama === 1 Partial College No E == 
19 20870 Single 2 _ High School Yes 1 
20 23316 Single < 3 Partial College C No EE Ei 
21 12610 Married i Bachelors Yes 0 
27183 Single 2 Partial College Clerical — Yes. 1 Ei 
dE - 
M * ^ ^; Introduction Table Analysis cols Sample. Forecasting | ill From Example i| 
就 绪 | i zn = 


图 17-5 【分 析 】 和 【设计 】 选 项 
单 击 【 分 析 关 键 影 响 因 素 】 按 钮 ， 选 择 要 当 作 分 析 目 标的 单一 数据 列 。 也 可 以 单 击 【 选 


一 25 一 / 


1i | Excel 2067 数据 挖掘 完全 手册 


择 分 析 时 要 使 用 的 列 】 超 级 链接 ， 并 选择 最 可 能 包含 相关 数据 的 数据 列 ， 取 消 选择 对 于 模 
型 分 析 不 重要 的 数据 列 ， 如 标识 符 或 名 称 ， 单 击 【确定 】 按 钮 。 在 这 里 选择 Marital Status 
这 个 变量 ， 如 图 17-6 所 示 。 

rr axi 

E 分 析 关键 影响 因素 SQLServer2oos 


列 选择 
选择 用 于 分 析 关键 因素 的 列 (S): 


CTS 
选择 分 析 时 要 使 用 的 询 (C) 
zs | me |, 
图 17-6 选择 当 作 分 析 目 标的 单一 数据 列 
当 利用 【分 析 关 键 影 响 因素 】 工 具 建立 报表 时 ， 会 执行 以 下 三 个 作业 : 
@ 建立 数据 挖掘 结构 来 储存 与 数据 有 关 的 关键 信息 。 
@ 使 用 Microsoft 贝 叶 斯 概率 分 类 算法 来 建立 数据 挖掘 模型 。 
© 针对 指定 的 每 一 对 属性 发 出 预测 查询 ， 以 识别 能 明显 区 分 两 个 目标 属性 的 因素 。 
此 工具 在 执行 数据 分 析 之 后 会 自动 设 定 所 有 参数 ， 以 决定 最 佳 的 设 定 。 
建立 的 报表 包含 具有 下 列 信息 的 四 个 数据 列 : 数据 列 包含 区 别 因 素 的 数据 列 名 称 ; 
@ 值 与 目标 之 间 具 有 最 强 关 联 的 值 ，@ 偏 好 此 因素 所 预测 的 结果 或 目标 值 ，@ 表 示 相 对 影 
响 程度 大 小 的 水 平 直 方 图 ， 用 以 指示 关联 的 强度 。 
运行 完成 后 ， 会 弹出 如 图 17-7 所 示 的 【对 比 报表 】 对 话 框 ， 询 问 是 否 增加 对 比 报 表 。 
A SQL Server 数据 控 据 - IESLLIE 13 |x] 
E 基于 关键 影响 因素 的 对 比 SOL serverz005 


对 比 报 表 1 
ERE. VLORITRR , DIARREA. ET EAR ART ANET 
» 或 者 随时 关闭 此 对 话 框 ， 完 成 分 析 。 


要 分 析 的 列 : Marital Status. 


17-7 【对 比 报表 】 对 话 框 
选择 对 比值 后 ， 单 击 【 确 定 】 按 钮 ， 可 以 得 到 如 图 17-8 所 示 的 报表 。 
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s DMAddins SampleData - Microsoft Excel EEC 
€ | m | 


页 面 布局 。 公式 Ede = AM BERE @- = x 
| & = wm a] . UAM IA 
Di == n due (gg. | DABE Pme s 2 d 
EE Z m ruu-5-A-we ox m m qa eem Den AN 
mmu FA 加 对 齐 方式 5 样式 单元 格 =a 
dore s 
Gl Hc £| a 


al A B na D E F G H 站 NE EP x mI 
“Marital Status” 的 关键 影响 因素 报表 [ | 


MENSEM ata sau OUO Y 
各 如 何 影响 “ Marital Status" 


Children ^ Married 

Age 55 - 65 Married 
9 Purchased Bike No Married 
10 Age 46 - 55 Married 
11 Gender Male Married 
12 Children d Married 
18 Age >= 65 — Married 
14 Hone Omer No Single 
15 Children ^o Single 
16 Age <3 Single 


Purchased Bike 


26 Hone Owner No 

27 Children ^o 

28 Age (3T 

29 Children ip m 

30 Age 55 - 65 E 

31 Purchased Bike No 

32 Purchased Bike Yes E 
33 Age 46 - 55 E 

34 Gender Male B 

35 Gender Fenale E 
36 Children + 

37 

38 

39 


M-* ^| Introduction, Table Analysis Tools Sample] Marital Status 的 影响 因素 ¿Forecastii 
sem 


17-8 ”分析 结果 报表 
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第 18 章 检测 类 别 


在 Excel 2007 SQL 2005 DM addin 分 析 工 具 栏 下 ， 有 一 个 检测 类 别 目录 选项 ， 可 以 自 
动 检测 数据 表 中 所 有 变量 的 类 别 目录 。 

首先 ， 指 定 用 于 分 析 的 数据 列 。 可 以 不 选取 有 相 异 值 的 数据 列 ， 例 如 个 人 名 称 或 记录 
标识 符 ， 因 为 这 些 数据 列 对 分 析 没 有 帮助 。 

其 次 ， 选 择 性 地 指定 要 建立 的 类 别 目 录 数 目 。 工 具 找 到 多 少 类 别 目录 ， 系 统 就 会 自动 
建立 同样 多 的 类 别 目录 。 单 击 【 运 行 】 按 钮 ， 如 图 18-1 所 示 。 

工具 会 建立 名 为 【类 别 目录 报表 】 的 新 工作 表 ， 工作 表 中 包含 类 别 目 录 列 表 及 其 特性 。 
ee ss IR emus 


s zuo) gg Q X R 


分 析 关键 检测 从 示例 M ”突出 显示 应 用 场 SQLDemo W 
影响 因素 类 别 填充 34 SRE 景 分 析 ” (localhost) — Rh- 


ZARLA E ka] 


r 数据 控 据 - 5 


一 一 一 9 E SOL Server200s 
1 用 于 分 析 关键 影响 因素 、i 79 


TEE 全 


24107 Married 


-1 Ñi. 

o S-1⁄ 
8 Male 0-1 
9 Fenals 1-2 
10 Male 0-1 
u Male 0-1 
12 Male 5-10 
13 Male 0-1 
14 Fenals 1-2 
15 Fenals 10+ 
16 Male 0-1 
i "az 1-2 
18 Male 0-1 
19 Fonal, 04 
20 Male 12 
2 pen 01 
22 Male 1-2 
2 [M 5-1 
24 Female re 0-1 
25 Teile 最 大 类 别 数 00: < 自动 检测 > B mI 
26 Male 1-2 
2 Penali F 将 一 个 类 别 列 追 加 到 原始 Excel 表 (入 x 
28 | Ma. 
29 Male 
30 Male 
一 Fenal: roo cmereri- rrrromer 

Me 3000 5 Teeth x £n x Sie id Manual 


M €» M. Introduction| Table Analysis Tools Sample "Forecasting Fill From Example 
|a 


图 18-1 检测 类 别 目录 
运行 后 , 会 将 检测 到 的 类 别 目录 进行 统计 , 并 在 新 的 Excel 窗口 中 显示 , 如 图 18-2 所 示 。 
第 一 个 数据 表 会 以 默认 名 称 如 “类 别 1” “类 别 2” 等 来 列 出 新 的 类 别 目 录 。 若 要 让 类 
别 目录 更 容易 使 用 ， 可 以 检阅 特性 列表 并 且 对 类 别 目录 指派 新 名 称 。 例 如 ， 如 果 类 别 目 录 
1 的 特性 包含 客户 年 龄 和 地 区 ， 可 以 在 上 方 图 表 的 “类 别 1” 名 称 上 单 击 ， 然 后 输入 所 要 的 


类 别 项 目 名 称 。 新 的 类 别名 称 会 自动 更 新 。 


Ta DMAddins_SampleData - Microsoft Excel 28x 
€ 开始 | 插入 页面 布 局 。 公式 数据 s UE RERE @- ° x 
ZWEI sa o. ”型 条 件 格式 - 3 搬入- E- | 
| "TE - 

13 $ cai n [K] =se] = Bage e aes A 8 

E 元 格 样 式 - 排序 和 可 所 和 

€ Z B z uy-|E-|5-A-|w- E G mde #| Si- ara Semet Det 2 a WS 
mpg ^ 字体 E 对 7 方式 J Wa 样式 单元 格 编辑 


Income 

Region 

Occupation 

Commute Distance 0-1 Miles 
Occupation Clerical 
Education Partial High School 
Cars 0 
Marital Status — Single 
Children 0 

Age es 37 
Cars 


EE 


TENUIT 


n 


Fu 
39 


i 


"er m es Analysis Tools Sample] 分 类 报表 ,Forecasting, Fill From Example, Source Da unt 


图 18-2 检测 到 的 类 别 目录 


第 一 个 数据 表 也 会 显示 原始 数据 中 分 成 该 类 别 目录 的 数据 列 数目 。 

第 二 个 数据 表 “ 类 别 特性 ”会 显示 在 类 别 目录 中 所 找到 的 相似 性 的 详细 数据 。 在 类 别 
目录 数据 列 顶端 ， 单 击 【 第 选 】 按 钮 即 可 查看 每 个 类 别 目录 的 特性 。 类 别 目录 的 特性 包含 
下 列 信息 如 图 18-3 所 示 。 

数据 行 : 数据 行 名 称 ， 一 般 是 属性 ， 例 如 收入 、 年 龄 、 教 育 程度 。 

相对 重要 性 : 颜色 条 ， 表 示 属 性 和 值 组 作为 区 别 因素 的 重要 性 。 颜 色 条 越 长 ， 此 属性 
代表 此 类 别 目录 的 可 能 性 就 越 大 。 

在 类 别 目录 报表 底部 单 击 图 表 时 ，Excel 会 显示 【数据 透视 表 字段 列表 】 图 表 控 件 ， 
可 以 以 互动 方式 筛选 及 重新 排列 字段 ， 如 图 18-4 所 示 。 
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DMAddins SampleData - Microsoft Excel -=x 
DT T 页 面 布局 ”公式 Ede A Am mami 加 -ox 
=; "m 
| P 宋体 -1 | 区 -| = 
W Jo» r uiuo- Alt] ÉE = m UG | si- 
xem 忆 字体 n 对 齐 方式 Bj ae 5 样式 单元 格 Ld 
ipm 
B6 Y Q f| 207 M 
EE 2 E F 
31 ,类别 2 Education Graduate Degree " 
32 ,类别 2 Income 低 :39050 - 71062 = 
33 类别 2 Commute Distance 0-1 Miles = 
34 类别 2 Purchased Bike Yes 
35 [类别 2 Age 很 低 :<_37 
36 类别 2 Age 低 :37 - 46 
37 | 类 别 2 Occupation „Skilled Manual 
38 类别 2 Children m 
39 ,类别 2 Children 0 E 


18-3 ”类 别 特性 


& DMAddins SampleData - Microsoft Excel wasamTa N -ex 
`3 se | mA  mEwm At mm 设计 mm e sn e- =“. 
"a — FAT | = 
D e] Famen an F g s 3«mn - | G 97 dà 

| Ë = I 
ME 7 | frm [n e] siengao- =s s| a) sr am ATUS hte | 2- MRNA 


28 3JB 8: RHOADS A 
E TIRESEERTA, 可 以 使 用 这 些 工 具 忱 类 别 / 列 进 行 简 达 。 ，。 u 
| 


100% 日 J 
ae 
ada 
adm i 
= 
LE 

Age age ae me | oe Ae ae age 


ET E ES mm | mus me | 397 o Hamm 


108| 
108| 


& B OR B ROB óÁBoR 


3 


zn 
o4» » _ Table Analysis Tools Ssagle] SZ Forecasting Fill Fron Example Seul 


18-44 【数据 透视 表 字 段 列表 】 图 表 控 件 
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第 19 章 ” 从 示例 填充 


首先 启动 Excel 2007 SQL 2005 DM addin 的 从 示例 填充 范例 。 从 示例 填充 工具 实现 在 
Excel 数据 表 快 速 建 立新 的 数据 行 , 同时 车 用 户 建立 新 值 , 该 工具 也 可 以 通过 分 析 范 例 模型 
来 填充 新 值 的 数据 列 。 例 如 ， 在 列 出 客户 及 其 年 度 购买 额 的 数据 表 中 ， 可 以 建立 几 种 范例 
的 新 数据 列 和 类 型 ， 如 High Value Customer 和 其 他 等 ， 如 图 19-1 所 示 。 此 工具 会 分 析 数 据 
中 的 现 有 模型 ， 并 会 套用 已 输入 的 范例 ， 填 满 数据 列 其 余部 分 的 值 。 如 果 用 户 对 结果 不 满 
意 ， 即 可 提供 更 多 范例 以 改善 结果 。 
— a à : 
ENxEENOG X 
影响 因素 类 别 填充 34 SHEA 景 分 析 ” (localhost) 助 * 


FHIR 连接 
下 E r BERE - 从 示例 填充 
a6 "Q J&] 14177 = 

[A B c p a 从 1 
i 用 于 从 示例 填充 的 示例 数据 。 E TT E - 
2 
s PEE Trueno meno qum 
& 12496 Married Fenale 4 0-1 Miles 
5 QT Married Male 3 0-1 Miles 
6 arried Fenale 8 2-5 Miles 
7 |. 24381 Single Male 7 5-10 Miles 
8 25597 Single Male 3 0-1 Miles 
9 13507 Married Fenale 1 选择 和 参数 1-2 Miles 
10 27974 Single Male 16 | Et 5I0991(S): k 000 Mles 
11 19364 Married Male " w 0-1 Miles 
12 | 22155 Married Male nn 5-10 Miles 
18 | 19280 Married Male 2 ENAERE D-1 Miles 
14 22173 Married Fenale 3 = 1-2 Miles 
15| 12697 Single Fenale D 运行 | mo 10+ Miles 
16 11434 Married Male 17, 0-1 Miles 
17 25323 Married Male 40000 2 Partial College Clerical Yes 1 1-2 Miles 
18 23542 Single Male 60000 1 Partial College Skilled Wanual No 1 0-1 Miles 
19 | 20870 Single Female 10000 2 High School Manual Yes 1 0-1 Miles 
20 23316 Single Male 30000 3 Partial College Clerical No 2 1-2 Mles 
21 | 12610 Narried Female 30000 1 Bachelors Clerical Yes O 0-1 Mles 
22 2183 Single Male 40000 2 Partial College Clerical Yes 1 1-2 Miles 
23 25940 Single Male 20000 2 Partial High SchecClerical Yes 2 5-10 Miles 
24 25598 Married Fenale 40000 O Graduate Degree Clerical Yes O 0-1 Hiles 
25 21564 Single Female 80000 0 Bachelors Professional Yes 4 10+ Miles 
26 | 13193 Single Yale 40000 2 Partial College Clerical Yes 0 1-2 Miles 
27 265412 Married Female 80000 8 High School Xonagenent No 3 5-10 Miles 
28 | 27184 Single Male 40000 2 Partial College Clerical No 1 0-1 tiles 
noer n| Table Analysis Tools Sample, 22S, Forecasting] F111 From Example Source Data Training Í] 
— ommo 


图 19-1 从 示例 填充 


也 可 以 指定 可 能 对 预测 遗失 数据 值 最 有 帮助 的 数据 列 ， 以 便 自 定义 结果 。 例 如 ， 如 果 
从 经 验 得 知 ， 在 一 个 数据 列 和 一 个 具有 遗失 值 的 数据 列 之 间 有 较 强 的 关系 ， 即 可 取消 选取 
其 他 数据 列 以 取得 较 佳 结 果 。 

分 析 完 成 后 会 建立 包含 分 析 结 果 的 新 工作 表 。 名 为 “< 数据 列 名 称 > 模 型 ”的 新 工作 表 ， 
会 报告 找到 的 数据 列 规则 (或 称 关键 影 响 因 素 )， 并 显示 每 条 规则 的 概率 。 


U Me 


如 果 向 导 检测 到 模式 ， 便 会 将 包含 新 值 的 数据 列 新 增 到 原始 的 数据 表 。 可 以 检阅 这 些 
值 ， 并 且 将 其 与 原始 的 值 比较 。 

模式 报表 会 显示 所 预测 的 每 个 值 的 关键 影响 因素 。 每 个 影响 因素 或 规则 都 会 被 描述 为 
数据 列 、 该 数据 列 中 的 值 ， 以 及 规则 对 于 预测 的 相对 影响 的 组 合 ， 如 图 19-2 所 示 。 


eg) DMAddins SampleData - Microsoft Excel TEP 
D | 开始 | mA | 页 本 布局 。 公式 BE +A üm RERE @ - 口 x 
mo «bel hers =; J | 3 插入” Er 
D 5 cama js laz] [= mmm] = = n R: Z 1 rr 
| SHEL kB sena . gH mn 
WE wr EEEE Ee mew m e e [83] EE | Sie | 
| 
ie 可 字体 E 对 刘 方 式 E 数字 a 样式 单元 格 编辑 
CENTER 
Al "à “High Value Customer” HERAK Y 
E A B n] D UN TNNT NN H LLL LB S3 
1 “High Value Customer" [E] E 5X 38 ze 
2 
3 LELE Value Customer” 的 值 的 影响 
4 ni Em Value Customer" 
5 
5 Commute Distance 2-5 Miles 
7 Children 5 Yes = 
8 Region Europe Yes L3 
9 Home Owner No Yes = 
10 Education Partial College Yes E 
11 Children 3 Yes E J 
12 Cars 2 Yes E 
13 Education High School Yes E 
14 Gender Male Yes E 
18 Occupation Clerical Yes E 
16 (Commute Distance 0-1 Miles Yes E 
17 Occupation Managenent Yes E 
18 Region Pacific No m 
19 Commute Distance — 5-10 Miles No. m 
20 Gender Fenale No L3 
21 Education Partial High School No = 
22 Education Bachelors No E 
23 Commute Distance 1-2 Miles No = 
24 Occupation Professional No Li 
25 Children g No E 
DEREN LI Forecasting Fill Fron Exemple] I ish Valuc Customcr 模式 Source Data Training Dati] 
won 


19-2 ”模式 报表 
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第 20 章 f 测 


局 动 Excel 2007 SQL 2005 DM addin 的 预测 范例 ， 该 范例 为 三 个 不 同 地 区 2001 年 7 月 
至 2004 年 6 月 M200 型 号 的 销售 记录 。 预 测 工 具 可 根据 Excel 数据 表 或 其 他 数据 来 源 中 的 
数据 进行 预测 ， 并 且 可 以 选择 性 地 查看 与 每 个 预测 值 相关 的 概率 ， 如 图 20-1 所 示 。 例 如 ， 
如 果 数 据 包含 日 期 和 当月 每 日 总 销售 额 的 数据 列 ， 可 以 预测 未 来 的 销售 情况 ， 也 可 以 指定 
要 预测 的 数目 ， 例 如 ， 可 以 预测 10 天 或 20 天。 
向 导 完成 后 ， 会 将 新 的 预测 值 附 加 到 来 源 数据 表 末 尾 ， 并 且 突 出 显示 。 但 新 的 时 间 序 
列 值 不 会 附加 ， 可 以 先 检阅 预测 。 
向 导 也 会 建立 名 为 “预测 报表 ”的 新 工作 表 。 这 个 工作 表 会 报告 向 导 是 否 成 功 建 立 预 
测 。 新 工作 表 也 包含 显示 历史 趋势 的 折线 图 。 

若 将 新 预测 值 加 入 到 原来 的 时 间 序 列 数 据 列 后 ， 预 测 值 会 加 入 折线 图 。 原 有 记录 值 用 
实 线 表 示 ， 预 测 值 则 用 虚线 表示 。 


DMAddins SampleData - Mi 要 工具 DR 
开始 MA 页 西 布局 公式 ”数据 ”市 阅 视图 BELE ət 设计 @- = x 


m= x= m= A WU 


分 析 关键 检测 从 示例 M AHRR 应 用 场 SQL Demo  *" 
影响 因素 类 别 填充 MWO SRE 景 分 析 ” (localhost) — 85" 


(eg 


ENLA 连接 帮助 
dace A xi 
-a pr 
| B7 Ç | 200108 SOT serverzxs x 
A ) B F 
2 
5 M200 X E HMM 
4 
5 
6 
: E a 
8 200109 3 
9 200110 
10 200111 
11 200112 
12 200201 
13 200202 
14 200203 
15 200204 
16 200205 
17 200206 
18 200207 
19 200208 
20 200209 
21 200210 30892. 7228 39111. 437 82410. 356 
22 200211 32964. 1424 51517. 6332 8241. 0356 
23 200212 65905. 9634 88513. 0078 18222. 814 
24 200301 41227. 4994 59591. 7045 88513. 0078 
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mem 


20-1 ”预测 
图 20-2 是 附加 在 原 时 序数 据 后 的 预测 值 ， 共 有 S 期 。 


DMAddins SampleData - Microsoft Excel 


Ü) e s cma ax =a sm sm sas 


IP Jones # sa jd 
Sem 
e= 7 a sse fectus sssaaa o gno aa MN 
m ES Ez bE a wji 
A46 ka 
30 
31 200308 108439 53 154464. 33 16139. 93 
E—— 
33 200310 115449.5 138474. 4 113029.51 
34 00311 
3: 200312 228304. 01 311473. 65. 11524. 95 
37 200402 198344. 14 205329. 11 108539. 53 
38 72003 
9 200404 182254. 21 214609. 07 117619. 43 
4p a 
41 
215659. 3491 75! 
200980. 1672 
261838. 9894| 286497.2175 — _ 5906. 71535 
277422. 5342| 520178. 2797_ 
AT 
LS rcc ratsodasitan Table: Tools- Forecas! PL- prem Exssple Source b 
s 2c 
20-2 预测 值 


三 个 地 区 未 来 5 个 月 的 销售 记录 的 预测 折线 图 如 图 20-3 所 示 。 


DMAddins SampleData - Microsoft Excel 


9, ERREUR RN sbs 


n [K] = === 


RENT Q Lp L K L ur u a L ur LL 


“Table5" 的 预测 报表 


— TUR — 


图 20-3 ”预测 折线 图 


第 21 章 突出 显示 异常 值 


首先 开启 Excel 2007 SQL 2005 DM addin 的 Table Analysis Tools Sample 范例 数据 表 。 
因为 数据 输入 错误 或 反映 不 寻常 趋势 的 错误 的 值 通称 为 异常 值 (Outlier)， 例 如 家 长 的 年 龄 
为 3 岁 ， 显 然 是 预期 值 以 外 的 值 。 但 不 论 是 哪 一 个 情况 ， 异 常 状况 都 可 能 影响 到 分 析 的 质 
量 。 因 此 ， 突 出 显示 异常 值 工具 有 助 于 用 户 寻找 到 这 些 值 ， 逐 个 查看 ， 并 进一步 找 出 原因 
等 以 提高 分 析 的 质量 ， 如 图 21-1 所 示 。 

突出 显示 异常 值 工具 适用 于 Excel 数据 表 中 的 整个 数据 范围 ， 也 可 以 只 选取 几 个 数据 
列 ， 并 可 以 调整 控制 数据 变化 的 临界 值 ， 以 寻找 更 多 或 更 少 的 例外 状况 。 


MIAGdins SampleD, x -IR == 
Té mA TEOR AX MB WR mm MESE | ar -ox 


SUUS e A 区 


分 析 关键 检测 ”从 示例 预 ”突出 显示 应 用 场 ”SQL Demo 
影响 因素 类 中 十 充 M RME 暴 分 析 ” (localhost) 2- 


FANIA se wa 
de-o0 s. 
| ES l3 ál 12496 


! 
1 LF 00 ew. 检测 类 别 、 突出 显示 异常 什 和 应 用 场景 分 析 的 示例 数据 。 


3 - = Ikone Ovner E 

n == DER Server DEPE - CHERA AM alx 

5 | 24107 Married Male x ( ol 
6 | 14177 Married Male gg 突出 显示 异 党 值 3>QLserver2005 
7 | 24381 Single Male 54 
8 | 25597 Single Wale H [z] 
9 | 13907 Herried Female 和 12 
10 27974 Single Male oi 
11 10364 Married Male 0-1 
12| 22156 Married Male 5l 
18 | 19280 Narrled Male o 
14 | 22178 Warried Fenale 1-2 
15 12897 Single Fenale 10+ 
16 11434 married Male or 
17 | 25323 Married Male 1-2 
18 23542 Single Male o1 
19 20870 Single Fenale 0-1 
20 23316 Single Male 12 
21| 12810 Nerried Fenale 0-1 
22 27183 Single Male 1-2 
23 25940 Single Male sl 
24 25598 Married Fenale 04 
25 21864 Single Fenale 10+ 
26 19195 Single Male [à Commute Distance zl 1-2 
27 | 26412 Married Fenale [zt 
20| 27184 Single Male oi 
29| 12590 Single Male 运行 | HO 0-1 
30 17841 Single Male A 0-1 
Si 18283 Single Ferale 100900 J Bachelors Frofessional 5 
32 | 18299 Nerricd Male 70000 5 Fartial College Skilled Manuel 

33 16466 Single Fenale m ° Partial Kigh Schocl Manual 
34 19273 Nerrled Fenale Sites, i, Manual 

ein] Table Analysis Tools Sasple /horaceetine dil Fill Fron Exanple, Source Da] 

«em n ERME 


图 21-1 突出 显示 异常 值 


当 向 导 完 成 时 ， 会 建立 一 张 新 的 工作 表 ， 其 中 包含 分 析 的 每 一 个 数据 列 中 找到 的 异常 
值 数 目的 摘要 报表 ， 如 图 21-2 所 示 。 此 工具 也 会 在 原始 的 数据 表 中 突出 显示 异常 值 。 


MW eoo sse 


DMAddins SampleData - Microsoft Excel *IR Lex 
G EE RENE MET CHE @-ax| 
"m E jm dex] = == JOH kh m LES LG 4 
Wed nl Emr wm me s- jp s up To um De mes- omne 


30000, o Partial College Clerical No 1 2 

20000 0 High School Manual No 1 2 

le 10000 4 Partial High School Manual Yes 2 03 

| *4| 27808 Single 0066 2 Partisl College Clerical No 0 0 

45| 14347 Single 40000. 2 Bachelors Marageacat Yes 2 8 

46 17703 Marricd 10000 1 Graduate Dcgrcc Moraal Yes 0 0- 

$T | 17185 Married 170000 $ Partiel College Frofessional No FENCE 
29980 Married 3 Manual ° 


High School 


23097 Single Fenale z Partial College Skilled Manual 2 si 
52| 19487 Married Male 30000 2 Partial College Clerical No 2 01 
53| 11939 Married Tale 40006 ° Bachelors Clerical Yes O 0-1 
54 13826 Single Fenale 30000 ° Partial College Clerical No 1 ei 
55 20619 Single Tale 90000. o Bachelors Frofessional No 10+ 
56| 12550 Narricd Fenale 20000 Clerical Yes 0 01 
ST| 24871 Single Fenale 90000 + Jura Ho 3 $i 
58| 17319 Single Fenale T0000 No 
Mosr M| Introduction] Table Analysis Tools Sanple Table? 5s - mi 
— — — n! 


图 21-2 摘要 报表 


由 于 突出 显示 异常 值 工具 会 分 析 整 体 趋势 ， 所 以 它 可 能 会 发 现 数据 列 中 的 大 多 数值 为 
正常 值 ， 而 只 突出 显示 该 数据 列 中 的 一 个 数据 格 。 

突出 显示 异常 值 工具 会 突出 显示 原始 数据 表 中 可 疑 的 数据 格 ， 如 图 21-3 所 示 。 如 果 突 
出 显示 的 颜色 很 深 ， 则 表示 这 一 数据 行 需要 特别 留意 ;如 果 突 出 显示 的 颜色 很 亮 ， 则 表示 
该 特定 数据 格 中 的 值 被 识别 为 可 疑 值 。 


° DMAddins SampleData - Microsoft Excel *IA amt 
| 开始 | MA WEGE x EB w AE MERE m mt -ox 
ima E> 


司 区 -n [an| | Zam xa (dh 8 sm In a r A 


= 


—  Conmute Distance. 


10+ Miles 
071 Miles 
0-1 Miles 


21-3 ”突出 显示 可 疑 的 数据 格 


在 查看 突出 显示 的 数据 格 后 ， 可 以 回 到 摘要 报表 ， 并 更 改 异 常 阔 值 ， 如 图 21-4 所 示 。 
它 表 示 特 定数 据 格 包含 异常 值 的 概率 ， 当 增加 这 个 值 时 ， 它 会 筛选 掉 概 率 较 低 的 值 ， 相反 ， 
当 减 小 这 个 值 时 ， 将 会 看 到 更 多 突出 显示 的 数据 格 。 摘 要 图 表 会 显示 每 一 个 数据 列 中 在 例 
外 状况 临界 值 以 上 的 数据 格 数目 。 
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Tams stessa] Ei 


fe) DMaAddins SampleData - Microsoft Excel -"ux 
fa 一 -一 
< | a | m^ mue AN mm eA wm SERE @- = x 
* lit T i] E E aE 
T3 3 -n [aa] = exe] Raman sa |E om CURT sr 
zu SHER BA STE cgro 2 NANEN 
| 5 了 arua | =s w | we Herne Ja ri ST eet et. EOU 27 uu. aE- 
Bum “ 字体 E azani E m= E HE SmE sE 
da os 
A3 - Q £| x 
2 B.L... c... EO F -6 H L 1 ru —H | 
1 Table2 的 突出 显示 异常 值 报表 
2 Zi mu. 
3 
i SERIE CX BORD 32] 
5 
s El EELT] 
7 Marital Status o 
8 Gender E 0 
9 Incone m IS H 
10 |Children = 2 
11 |Education [= 3 
.12 Occupation = 2 
13 Home Owner I ° 
14 Cars EN c 
18 Coamute Distance ET 5 
16 Region E 1 
17 Age [Li 1 
18 Purchased Bike E 0 
19 I 
20 LË 23, 
21 


22 
+ y | Introduction, Table Analysis Tools Sample] Table? DHEM, Forecasting, MAHR, Fill Rron Exi] 


wa | 站 


21-4 ”更改 异常 阔 值 


当 单 击 【运行 】 按 钮 时， 此 工具 会 执行 以 下 三 个 作业 : 

@ 根据 目前 在 数据 表 中 的 数据 建立 数据 挖掘 结构 。 

@ 使 用 Microsoft 聚 类 算法 建立 新 的 数据 挖掘 模型 。 

@ 根据 模型 建立 预测 查询 ， 以 判断 工作 表 中 是 否 存在 异常 值 。 
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第 22 章 应 用 场景 分 析 


221 目标 查找 


应 用 场景 分 析 有 两 个 很 有 用 的 工具 : 目标 查找 工具 和 假设 工具 ， 如 图 22-1 所 示 。 目 标 
查找 工具 与 假设 工具 相辅相成 ， 假 设 工具 会 显示 变化 的 影响 ， 而 目标 查找 工具 则 会 显示 为 
了 实现 上 述 变 化 而 必须 变化 哪些 基础 因素 。 

当 此 工具 完成 分 析 时 ， 它 会 在 来 源 数 据 表 中 建立 两 个 新 的 数据 列 。 这 些 数据 列 会 显示 
预测 的 成 功 及 建议 的 变化 〈 如 果 有 的 话 )。 目 标 查 找 的 操作 步骤 如 下 : 


DMAddins SampleData - Microsoft Excel 


ZA 


的 


页 面 布局 


troduction, Table Anal; 


公式 数据 市 阅 视图 BERE dr mit 


加 -mx 


ysis Tools Sample ¿Foreca 


ing, Fill From Example Source Data, Trainir] 


22-1 


目标 查找 和 假设 工具 
Step1: 单 击 【 应 用 场景 分 析 】 按 钮 ， 然 后 单 击 【目标 查找 】 按 钮 。 


s 8 9] EB K 欧 
"a2 
分 析 关键 检测 从 示例 GEO RAER SQLDemo ， 机 
影响 因素 类 别 填充 U ROME Rr (localhost) s 
monIm Wb | 
@ 目标 查找 
io-e s 
| A4 TO 9 假 如 果 知 道 所 需 结果 在 另 一 列 中 ， 则 使 用 数据 模式 估计 一 列 中 的 正确 输入 。 — 
J "Yami E À I 
3 [-ITETITETE - 49 SQLServer.DMXLAddIn 
ox [Luzsgehrareiea 有 关 详细 帮助 ， WIS F1, 
5 | 24107 Married Male 30000 3 "Partial College Clerical Yes £ 
6 | 14177 Married Male 80000 5 Partial College Professional No 2 2-5 Mild 
7 24881 Single Male 70000 0 Bachelors Professional Yes 1 5-10 Mil 
8 25597 Single Male 30000 0 Bachelors Clerical No 0 0-1 Mil 
9 | 18507 Married Fenale 10000 2 Partial College Manual Yes o 1-2 Mil 
10 | 27974 Single Male 160000 2 High School Managenent Yes 4 0-1 Nile 
11 19364 Married Male 40000 1 Bachelors Skilled Manual Yes 0 0-1 Mild 
12 22155 Married Male 20000 2 Partial High School Clerical Yes 2 5-10 Mil 
13 19280 Married Male 20000 z Partial College Manual Yes L 0-1 Mild 
14 22173 Married Fenale 30000 8 High School Skilled Manual No 2 
15 12697 Single Fenale 90000 0 Bachelors Professional No 4 
16 11434 Married Male 170000 5 Partial College Professional Yes 4 
17 25323 Married Male 40000 š Partial College Clerical Yes 1 
18 23542 Single Male 60000 1 Partial College Skilled Manual No 1 
19 20870 Single Fenale 10000 z High School Manual Yes L 
20 | 23816 Single Male 30000 3 Partial College Clerical No 2 
21| 12610 Married - Fenale 30000 1 Bachelors Clerical Yes 0 
22 27183 Single. Male 40000 z Partial College Clerical x 
23 | 25940 Single Male 20000 2 Partial High School Clerical FI 
24 25598 Married Fenale 40000 0 Graduate Degree Clerical 0 
25 21564 Single Fenale 80000 0 Bachelors Professional 4 
26 19193 Single Male 40000 2 Partial College Clerical 0 
27 6412 Married — Fenale 80000 High School - Management 3 


$223 应 用 场景 分 析 | 图 和 | 


Step2: 在 【目标 查找 】 对 话 框 中 (图 22-2)， 选 择 包 含 目 标 值 的 数据 列 ， 在 这 里 选择 
“教育 程度 ”。 
Step3: 指定 要 查找 的 精确 值 ， 或 是 想 要 增加 或 减少 的 值 的 部 分 。 如 果 数 据 列 目标 包含 
连续 的 数值 ， 也 可 以 指定 某 个 范围 当 作 目标 。 
Step4: 指定 要 变化 的 数据 列 。 不 需要 指定 数据 列 的 变化 数量 ， 系 统 将 会 自动 评估 所 有 
可 能 的 变化 值 。 
Steps: 可 以 选择 性 地 单 击 【选择 分 析 时 要 使 用 的 列 】 超 级 链接 ， 并 选择 包含 有 用 信息 
的 数据 列 ， 取 消 选 择 对 于 分 析 没有 用 处 的 数据 列 。 
Step6: 指定 要 针对 整 份 数据 表 还 是 只 有 选中 的 数据 列 做 出 预测 。 
Step7: 如 果 选 中 【整个 表 】 单 选 按钮 ， 此 工具 会 将 预测 加 入 到 来 源 数 据 表 的 两 个 新 数 
据 列 中 。 
Step8: 如 果 选 中 【当前 行 】 单 选 按钮 ， 分 析 的 结果 会 输出 到 对 话 框 。 此 对 话 框 会 维持 
可 用 的 状态 ， 可 以 继续 输入 新 的 目标 。 
Ç SQL Server 数据 挖掘 - 应 用 场景 分 析 : 目标 查找 |x] 
@ sve: Bei SQL Server2os 


a a 


ERAH: 
目标 (G): Education < 
6 精确 多 ). [Bachelors z] 


图 22-2 【目标 查找 】 对 话 框 
如 图 22-3 所 示 为 针对 整 份 数 据 表 。 
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€ DMAddins SampleData - Microsoft Excel -5x 
—U/ sa | EA mGF At AR eie Am RERE @-ox 
* raa = i g S" mA. EC 
(me x -1 -[&w|[m zm] === =a - * E 5% Pa EM h 
== K === L| = = 一 一 一 一 [二 条 件 格式 套用 BOUE s - . 排序 和 EH 
WM Jm ru-[m-|5-A-|w- t = mj Ge] lesa - (39-8 iE 3) C. amem D a umm. 
E ad 字体 É XAR E 数字 Ë 样式 单元 格 编辑 | 
do-c-* 
P1 £ Y 
Lr I K L x Q 
1 
2 
s EE. m -IES-IYH- 
4. 0 0-1 Niles Europe 42 No ° 
5 1 0-1l Miles Eurcpe 43 No ° 
& | 2 2-5 Miles Hurope — "60 No. ° 
T 1 510 les Pacific — 4&1 Yes ° 70000 
8 0 071 Miles Europe 36 Yes ° 30000 
° O 1-2 Miles Europe 50 No ° 6365 
10| 4 0-1 Hiles Pacific — 38 Yes ° 10000 
11 0 0-1 Miles Europe 43 Yes ° 40000 
12| 2 5-10 Niles Pacific 58 No o 6365 
18| 1 0-1 Miles Eurcpe 48 Yes o 6365 
14| 2 1-2 Miles Pacific 54 Yes o 23955 
15| 4 10 Miles Pacific — 36 No ° 90000 
16| 4 0-1 Hiles Europe 55 No ° 10000 
17| 1 1-2 Miles Eurcpe 35 Yes © 6365 
18| 1 0-1 Miles Pacific 45 Yes ° 10000 
19| 1 0-1 Miles Eurcpe 38 Yec ° 6365 
20| 2 1-2 Niles Pacific — 59 Yes o 6365 
21| 0 0-1 Niles Eurcpe 4T No ° 30000 
22| 1 1-2 Mies Eurcpe 35 Yes o 6365 
28 | 2 8-10 iles Pacific — 55 Yes © 6365 
24 0 0-1 Miles Europe 36 Yes ° 10000 
25| 4 10+ Miles Pacific — 35 No ° 80000 
26 0 1-2 Niles Europe 35 Yes ° 6365 
W^ row Introduction] Table Analysis Tools Sample Forecasting, Fill From Exsmple Source Data, Tralni 
wa = 


22-3 ”针对 整 份 数据 表 


22.2 假设 


假设 工具 会 分 析 现 有 数据 中 的 模型 ， 然 后 评估 一 个 数据 列 的 变化 对 另 一 个 不 同 数据 列 
形成 的 效果 。 例 如 ， 可 以 浏览 涨 价 对 总 销售 额 的 影响 效果 ， 如 图 22-4 所 示 。 向 导 在 决定 预 
测 数目 上 十 分 灵活 ， 同 时 在 完成 初始 的 分 析 之 后 ， 还 会 让 操作 者 选择 是 否 要 预测 数据 表 中 
所 有 数据 的 结果 ， 或 者 是 否 要 一 次 输入 一 组 测试 值 。 其 操作 步骤 如 下 : 

Step1: 在 【假设 】 对 话 框 中 (图 22-5)， 选 择 包含 所 要 变化 的 数据 列 ， 并 将 变化 值 指 
定 为 特定 的 值 或 目前 值 的 百分比 (增加 或 减少 )。 

Step2: 在 【目标 】 下 拉 列 表 框 中 ， 指 定 要 评估 其 效果 的 数据 列 。 

Step3: 选择 性 地 单 击 【 选 择 分 析 时 要 使 用 的 列 】 超 级 链接 ， 选 择 在 进行 预测 时 可 能 丰 
用 的 数据 列 。 也 可 以 取消 选择 在 检测 模型 时 可 能 不 太 有 用 的 数据 列 ,例如 数据 列 ID 或 名 称 。 

Step4: 指定 是 否 只 要 评估 目前 选取 数据 列 的 影响 ， 或 是 只 要 评估 数据 表 中 的 完整 数 
据 集 。 

Step5: 如 果 选 中 【当前 行 】 单 选 按钮 ， 工 具 便 会 在 对 话 框 中 显示 结果 。 当 对 话 框 运 行 
时 ， 可 以 继续 测试 其 他 状况 。 

Step6: 如 果 选 中 【整个 表 】 单 选 按 钮 ， 工 具 便 会 在 对 话 框 中 显示 状态 消息 ， 并 将 两 个 
新 的 数据 行 加 入 原始 的 数据 表 中 。 单 击 【 关 闭 】 按 钮 即 可 在 工作 表 中 查看 完整 结果 。 
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(e) D^ dins * 
O Ma SA DER 


公式 数据 


*IR 
视图 SERE f mit 


Bg 


a 3 sg 图 E @ ES 区 L Server 数据 控 据 — VAHERI: Üi 
SNAR M ATE S sam 应 用 和 SQL Demo "a - TON 
影响 因素 3680 mom A RHE RA- (localhost) 5 = ? 应 用 场景 分 析 - 假设 SQL Server2005 
FANIA EAE] 
SALA ga 六 的 影响 。 影 响 的 评估 基于 在 素 中 检 | 
ss en 
B44 Y £] Single "m 
| ID [Marital Status| Gender Incone Children 'onnuti 
27| 26412 Marr: Fenale 80000 5 应 用 场景 10 mij 
28 27184 Single Jale 40000 2 ERA: [Marital Status 1 Milea 
29. 12590 Single Xale 30000 1 1 mid 
30  1T84lSingle Yale 30000 0 € Bizi: 1 Nile 
31 18283 Single Female 100000 9 10 Mil 
32 18299]arried Yale 0000 5 10 Yi 
33 16486Single Female 20000 0 RE 1 Nile 
34 | 19278 Married Female 20000 2 后 时 1 Mile 
35 22400 Married Yale 10000 9 BRO: [cas 司 pes 
36 20942 Single Female 20000 ° 10 Mil 
37 18484 Single Yale 80000 2 2 mild 
38 12291 Single Malc 90000 5 选择 分 析 时 要 使 用 多 列 |5 Mild 
39 28380 Single Fenale 10000 5 1 Nile 
40 17891 Married Fenale 10000 z [指定 行 或 表 à mile 
41 27832 Single Fenale 30000 0 6 当前 行 (O 个 整个 表 四 5 mid 
42 26863 Single Wale 20000 0 5 Nile 
43 | 16289 Female 10000 + 1 Nile 
时 | 27803 enale 30000 2 Le | n 
45 14347 Single Female 40000 2 10 Mil 
46 | 17703 Married Fenale 10000 1 Ə Cos 的 假设 分 析 找 到 了 解决 方 案 1 Mile 
A7 | 17185 Married Female 170000 4 x 1o Mi] 
48 29380 Married Fenale 20000 3 Cars t 1 Nile 
49 23986 Married Female 20000 í 1 Mild 
50 24466 Married Female 60000 1 置信 度 -很 好 10 Ii 
51 29097 Single Female 40000 z 
52 19487 Married Yale 30000 E 
53 14939 Married Yale 40000 0 


4 + y M fntrodaction] Tablo Analysis Tools Sampl 


Forecasting, F. 


menm 


加 入 数据 表 中 的 数据 列 会 包含 两 种 信息 类 型 : 变化 的 预 


图 22-4 应 用 场景 分 析 : 假设 
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225 【假设 】 对 话 框 


页 测 值 及 其 置信 和 度 。 置 信 度 表示 
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预测 正确 的 概率 ， 如 图 22-6 所 示 。 
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图 22-6 置信 度 


也 可 以 在 对 话 框 中 逐一 输入 变化 值 ， 并 以 互动 的 方式 查看 预测 。 这 与 建立 单一 预测 查 
询 (singleton prediction query) 相同 。 预 测 查询 的 结果 是 具有 下 列 信息 的 输出 : 预测 的 成 功 
或 失败 、 预 测 的 值 ， 以 及 置信 度 水 平 。 置 信 度 水 平 会 被 显示 为 水 平 的 直方 图 ， 柱 形 越 长 ， 
表明 结果 的 置信 度 越 高 。 
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Visio 2007 的 数据 透视 图 表 ， 可 以 将 数据 作 有 结构 性 的 聚 类 ， 数 据 的 来 源 有 了 更 多 的 选 
择 ， 除 了 可 依据 数据 表 、 数 据 库 ， 还 可 以 直接 连接 cube 来 作 数据 透视 图 表 ， 如 图 23-1 所 示 。 


数据 源 名 称 : ch23. xls ~ Sheet1$ 
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23-1 Visio 2007 数据 透视 图 表 
Stepl: 启动 Visio 2007 后 ， 在 左边 的 【模板 类 别 】 中 选择 【商务 】 然后 在 中 间 的 模板 
图 中 选择 【数据 透视 图 表 】， 最 后 在 右边 视 框 中 单 击 【创建 】 按 钮 。 如 图 23-2 所 示 。 


[Im 


23-2 ”创建 数据 透视 图 表 
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Step2: 弹出 如 图 23-3 所 示 的 【数据 选取 器 】 对 话 框 ， 依 据 数据 来 源 选择 ， 这 里 选中 
[Microsoft Office Excel 工作 短 】 单 选 按钮 ， 之 后 再 单 击 【 下 一 步 】 按 钮 。 
Step3: 在 如 图 23-4 所 示 的 【要 导入 的 工作 短 】 下 拉 列 表 框 中 ， 选 择 要 导入 的 Excel 


文件 。 
数据 选取 器 x| RAE x| 
要 使 用 的 数据 : 连接 到 Nicroseft Office Excel Tf Pa 
'& Microsoft Office Excel TER (E) was 
C Microsoft Office Access 数据 库 (&) 
: > A ; 要 导入 的 工作 条 四: 
ases Aa nie reri aH [Er Wocunents and Settings Vihengaiang LAT VRIB Vch23. x15 =] 
C Microsoft SQL Server 数据 库 (5) WAR.. 
C Microsoft SQL Server Analysis Services (Q) 
C 其 他 oLEDB 或 onee SUBE (o) 
C 以 前 创建 的 连接 (P) 
取消 EFD E oj mH | “上 - 步 @ EET mo 
23-3 【数据 选取 器 】 对 话 框 23-4 选择 要 导入 的 Excel 文件 


Step4: 在 如 图 23-5 所 示 的 【要 使 用 的 工作 表 或 区 域 】 下 拉 列 表 框 中 ， 选 择 要 使 用 的 
Excel 工作 表 或 区 域 。 若 数据 的 第 一 列 包含 标题 , 则 选中 【 首 行 数据 包含 有 列 标题 ] 复 选 框 。 
如 果 仅 分 析 一 个 数据 区 域 ， 可 以 单 击 【选择 自 定义 范 围 …】 按 钮 进行 选择 。 

Step5: 挑选 要 分 析 的 数据 列 与 数据 行 ， 这 里 选择 所 有 的 数据 行 与 数据 列 。 最 后 单 击 
【完成 】 按 钮 ， 如 图 23-6 所 示 。 


x| EEE x| 
连接 到 Microsol ft Office Excel Ift Pa ENTRE a Pa 
要 包含 的 列 (0): 要 包括 的 行人 : 
要 使 用 的 工作 才 或 区 咸 W) : = 
i i 
emere... | 
F 首 行 数 据 包含 有 列 标题 QD 
El El 
3599)... | WTW... | 
回 | 取消 “| «t-»e[r-»»»] =e || @| m | «r-»e[r-*a»] xe | 
23-5 选择 要 使 用 的 Excel 工作 表 或 区 域 23-6 ”挑选 要 分 析 的 数据 列 与 数据 行 


Step6: 设 定 完成 要 分 析 的 数据 来 源 后 ,会 自动 产生 一 个 数据 透视 图 表 的 基本 架构 。 如 
图 23-7 所 示 ，1 是 数据 透视 图 表 的 名 称 ， 双 击 可 编辑 此 分 析 图 的 名 称 。2 是 数据 透视 图 表 
的 说 明 ， 可 自行 编辑 。3 是 整个 数据 透视 图 表 的 顶端 节点 ， 为 整体 数据 的 汇总 分 析 。4 在 添 
加 汇总 区 ， 系 统 会 自动 把 数值 型 字段 〈 即 变量 ) 都 归 入 其 中 。 自 动 预 设 选中 第 一 个 复 选 框 。 
Step7: 这 个 步骤 主要 介绍 如 何 设 定 要 分 析 的 类 别 与 汇总 等 字段 。 先 取消 选中 ID 〈 合 
Wo 复 选 框 ， 因 为 ID 字段 并 不 是 可 以 做 计算 的 字段 ， 虽 然 它 是 数值 型 变量 ;再 选中 Cars 
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(合计 ) 复 选 框 ， 并 将 合计 改 为 平均 ， 先 选择 工作 界面 的 汇总 项 ， 再 从 “添加 类 别 ” 栏 中 
依次 选中 要 分 析 的 Purchased Bike 和 Region， 如 图 23-8 所 示 。 整 个 数据 透视 图 表 的 结构 就 
会 先 按 Purchase Bike 节点 分 类 ， 再 按 Region 分 类 。 
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图 23-8 设 定 要 分 析 的 类 别 与 汇总 
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Step8: 接 下 来 介绍 如 何 将 数据 数值 以 图 标 表 现 。 在 某 一 个 节点 的 数值 上 右 击 ， 在 弹出 
的 快捷 菜单 中 选择 【数据 】 一 【编辑 数据 图 形 】 命 令 ， 如 图 23-9 所 示 。 


f] 绘图 2 - Microsoft Visio 
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23-0 编辑 数据 图 形 


Step9: 在 弹出 的 如 图 23-10 所 示 的 【编辑 数据 图 形 】 对 话 框 中 选择 【新 建 项 目 】 一 【 数 
据 栏 】 命 令 。 
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图 23-10 【编辑 数据 图 形 】 对 话 框 


Step10: 在 如 图 23-11 所 示 的 【新 建 数 据 栏 】 对 话 框 中 的 【数据 字段 】 下 拉 列 表 框 中 选 
择 Cars〈 平 均值 )， 在 【标注 】 下 拉 列 表 框 中 选择 速度 计 ， 最 后 单 击 【 确 定 】 按 钮 ， 即 可 完 
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成 ， 如 图 23-12 所 示 。 
x] 


显示 标注 位 置 
数据 字段 四: [cars (平均 值 ) - 


mo: |- ams E 


23-11 【新 建 数据 栏 】 对 话 框 
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23-12 完成 后 的 数据 透视 图 表 
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一 上 市 公司 投资 价值 分 析 的 挖掘 模型 
7 ”信用卡 用 户 信 用 评测 的 挖掘 模型 
7 市 场 营销 与 客户 细 分 的 挖掘 模型 


$243* ”上 市 公司 投资 价值 分 析 的 挖掘 模型 


24.1 研究 动机 与 目的 


股票 作为 一 种 投资 工具 ， 其 本 身 代表 了 股票 持 有 者 对 公司 的 所 有 权 ， 代 表 取 得 收益 的 
权利 ， 是 对 未 来 收益 的 支取 凭证 。 股 票 价格 不 是 它 所 代表 的 实际 资本 价值 的 货币 表现 ， 而 
是 一 种 资本 化 的 收入 。 股 票 价格 一 般 是 由 股息 和 利息 率 两 个 因素 决定 的 。 股 票 价 格 = 股息 / 
利息 率 ， 股 票 价格 与 股息 成 正比 例 变化 ， 而 和 利息 率 成 反比 例 变 化 。 如 果菜 个 股份 公司 的 
营业 情况 好 ,股息 增多 或 预期 的 股息 将 要 增加 ， 这 个 股份 公司 的 股票 价格 就 会 上 涨 ; 反之 ， 
则 会 下 跌 。 

公司 在 上 市 一 年 以 后 其 股价 一 般 取决 于 其 内 在 价值 和 成 长 性 因素 ， 质 地 较 好 的 新 上 市 
公司 在 保证 较 好 业绩 和 成 长 性 ， 并 伴 有 高 送 配 题 材 时 ， 将 极 大 提高 公司 股价 估 值 水 平 ， 在 
价值 投资 理念 下 ， 股 价 必然 会 反映 其 内 在 价值 。 股 票 走势 一 般 都 可 以 体现 业绩 增长 同 股价 
提升 的 正 相 关 关 系 ， 主 营业 务 发 展 的 好 坏 ， 始 终 是 行业 和 个 股 股价 上 涨 的 原动力 ， 此 外 股 
价 运行 很 大 程度 上 也 依托 于 企业 的 净利 润 增长 空间 ， 利 润 增长 越 快 ， 市 场 中 的 操作 者 越 能 
增强 其 持 有 信心 ， 即 净利 润 的 相对 高 速 增长 能 调 高 市 场 对 该 股票 的 预期 。 每 股 收益 常 被 用 
来 衡量 企业 的 鼻 利 能 力 和 评估 股票 投资 的 风险 。 如 果 企 业 的 每 股 收益 较 高 ， 则 说 明 企业 一 
利 能 力 较 强 ， 从 而 投资 于 该 企业 股票 风险 相对 也 就 小 一 些 。 因 此 ， 投 资 者 处 于 独 利 和 避 险 
的 考虑 往往 选择 每 股 收益 高 的 新 股 进行 投资 这 样 每 股 收益 相对 高 的 新 股 股价 得 以 市 场 资金 
和 人 气 的 支持 , 而 展现 高 于 一 般 的 涨幅 。 可见 新 股 每 股 收 益 和 其 股价 运行 存在 着 正 相 关 关 系 。 


24.2 ” 挖 据 模型 的 构建 


让 计算 机 通过 个 股 的 葵 利 状况 数据 来 选择 股票 , 可 以 看 作 一 个 数据 挖 气 中 的 分 类 问题 。 
因为 知道 每 支 股 票 过 去 的 盘 利 状况 数据 和 涨 跌 走 势 。 可 以 把 这 些 数据 看 作 一 个 数据 集 。 如 
果 让 机 器 通过 归纳 法 对 这 个 数据 集 进行 处 理 ， 通 过 训练 数据 建立 模型 ， 进 行 准确 性 检验 和 
改进 ， 再 应 用 于 新 的 数据 。 例 如 新 近 公布 的 上 市 公司 业绩 状况 ， 就 可 以 对 上 市 公司 进行 分 
类 ， 帮 助 投资 者 选择 合适 的 股票 ， 并 能 够 预测 将 来 的 股票 是 否 超 涨 还 是 处 于 一 般 水 平 。 

本 范例 选取 了 2006 年 12 月 31 日 1110 支 中 国 A 股 的 一 系列 与 利润 相关 的 财务 指标 : 
主 营业 务 收入 、 净 利润 、 总 资产 、 股 东 权 益 (不 含 少 数 股 东 权 益 )、 每 股 收益 (摊薄 净利 润 )、 
净 资 产 收益 率 〈 净 利润 )、 资 产 收 益 率 、 净 利润 率 和 市 净 率 以 及 这 些 股票 在 2007 年 第 一 季 
度 的 涨幅 状态 (标识 个 股 是 否 高 于 平均 水 平 )。 
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基本 的 挖掘 模型 是 : 先 将 选取 的 数据 随机 分 成 两 个 部 分 ， 其 中 训练 集 占 70%， 验 证 集 
占 30%。 并 分 别 用 Logistic 回归 、 贝 叶 斯 分 类 和 决策 树 对 其 涨幅 状态 建 模 。 然 后 用 验证 集 
进行 检验 和 比较 ， 如 图 24-1 所 示 。 
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24-1 上 市 公司 投资 价值 分 析 的 挖掘 模型 框架 
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研究 目的 是 发 现 股票 基本 面 信息 与 股票 价格 增长 之 间 的 关系 ， 借 助 公司 的 基本 面 信息 
来 选择 出 股价 超额 增长 的 股票 ， 从 而 在 股票 市 场 上 获取 超额 收益 。 因 此 指标 的 选取 自然 也 
分 成 了 两 个 部 分 ， 有 关公 司 基 本 面 的 指标 ;， 有关 股票 价格 增长 的 指标 。 

作为 对 公司 股票 价格 走势 进行 预测 、 分 类 的 依据 ， 主 要 选择 了 主 营业 务 收入 、 净 利润 、 
总 资产 、 股 东 权 益 〈 不 含 少数 股东 权益 )、 每 股 收益 摊薄 净利 润 )、 净 资产 收益 率 ( 净 利 
润 )、 净 利润 增长 率 、 市 净 率 等 指标 来 描述 公司 基本 面 信息 。 各 指标 的 定义 有 以 下 几 个 ， 选 
用 变量 如 表 24-1 所 示 。 

主 营 业务 收入 : 指 的 是 企业 (集团) 从 事 某 种 主要 生产 、 经 营 活动 所 取得 的 营业 收入 
(单位 : Jú). 

净利 润 : 是 一 个 企业 经 营 的 最 终 成 果 ， 衡 量 企业 经 营 效益 的 主要 指标 。 

总 资产 : 指 企业 拥有 或 控制 的 全 部 资产 。 包 括 流动 资产 、 长 期 投资 、 固 定 资产 、 无 形 
及 递 延 资产 、 其 他 长 期 资产 、 递 延 税 项 等 ， 即 为 企业 资产 负债 表 的 资产 总 计 项 。 总 资产 代 
表 了 企业 的 长 期 偿 债 能 力 。 

股东 权益 (不 含 少数 股东 权益 ): 指 公司 所 有 者 权益 合计 。 不 包括 公司 投资 子 公司 产生 
的 少数 股东 权益 。 股 东 权 益 衡量 的 是 公司 总 资产 扣除 负债 之 后 的 余额 ， 是 股东 在 公司 清算 
情况 下 最 终 能 够 获得 利益 多 少 的 一 个 指标 。 

每 股 收益 〈 摊 薄 净 利润 ): 计算 公式 为 每 股 收益 = 除 税 后 净利 润 /已 发 行 股票 数 。 上 市 
公司 如 发 行 可 换 股 债 、 认 股权 证 、 配 送 新 股 ， 则 假设 其 全 部 行 权 ,在 计 入 可 换 股 债 ( 和 /或 ) 
认 股 权证 所 产生 的 新 股 数 ， 计 算出 新 的 每 股 收益 称 为 摊薄 后 的 每 股 收益 。 
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净 资 产 收 益 率 〈 净 利润 ): 又 称 股东 权益 收益 率 ， 是 净利 润 与 平均 股东 权益 的 百分比 。 
该 指标 反映 股东 权益 的 收益 水 平 ， 指 标 值 越 高 ， 说 明 投资 带 来 的 收益 越 高 。 净 资产 收益 率 的 
计算 公式 是 公司 税 后 利润 除 以 净 资 产 得 到 的 百分比 率 ， 用 以 衡量 公司 运用 自 有 资本 的 效率 。 

净利 润 增长 率 ， 即 本 年 净利 润 减 去 上 年 净利 润 之 差 再 除 以 上 期 净利 润 的 比值 。 净 利润 

公司 经 营业 绩 的 最 终结 果 。 净 利润 的 增长 是 公司 成 长 性 的 基本 特征 。 

市 净 率 : 公式 为 市 净 率 = 股票 市 价 /每 股 净 资产 。 净 资产 的 多 少 由 股份 公司 经 营 状况 


表 24-1 选用 变量 及 其 类 型 说 明 
指标 名 称 kom 


股票 代码 分 类 变量 样本 编号 


主 营业 务 收入 2006 年 第 四 季度 
YT 2006 年 第 四 季度 
总 资产 2006 年 第 四 季度 


股东 权益 〈 不 含 少数 股东 权益 ) 2006 年 第 四 季度 
每 股 收 益 ( 捧 洲 净 利润 ) 2006 年 第 四 季度 
净 资 产 收益 率 〈 净 利润 ) 2006 年 第 四 季度 


资产 收益 率 2006 年 第 四 季度 
净利 润 增长 率 2006 年 第 四 季度 


= 2006 年 第 四 季度 

是 否 为 较 高 增值 股票 (good) 较 高 增值 股票 为 1， 否则 为 0 

在 本 研究 中 ， 需要 根据 股票 价格 的 增长 情况 ， pr. 分 为 两 类 : 涨幅 高 于 一 般 水 平 的 
股票 和 低 于 一 般 水 平 的 股票 。 前 者 即 为 具有 投资 价值 的 上 市 公司 股票 。 

由 于 上 证 指数 采用 加 权 综 合 价格 指数 公式 计算 ， 主 要 代表 了 一 些 股票 的 走势 ， 而 受 成 
份 股 公司 市 值 的 影响 很 大 。 深 成 指 也 存在 与 上 证 指数 十 分 类 似 的 问题 ， 因 此 以 大 盘 指 数 的 
增长 率 与 个 股 涨幅 相 比 不 妥当 。 此 外 ， 考 虑 中 小 投资 者 的 资金 有 限 ， 选 择 投资 组 合 时 并 不 
是 按照 拟 投资 股票 的 市 值 进行 配置 ， 多 采取 简单 “投资 组 合 ” 方 法 ， 例 如 将 资金 等 分 成 若 
干 份 ， 然 后 分 别 投入 不 同 的 股票 。 由 此 , 选择 A 股 股票 的 平均 涨幅 是 一 种 更 加 合适 的 做 法 。 

经 过 计算 , 在 2007 年 第 一 季度 的 第 一 个 和 最 后 一 个 交易 日 之 间 ， 深 沪 两 市 有 正确 资料 
可 查 的 1 110 支 股票 ， 其 平均 涨幅 为 73.9%。 由 此 以 73.9% 为 临界 值 ， 高 于 此 值 的 叫做 较 高 
增值 股票 ， 低 于 此 涨幅 的 叫 较 低 增值 股票 。 


244 决策 树 模型 


利用 决策 树 方法 ， 所 有 的 股票 被 分 成 了 两 层 五 类 。 在 第 一 层 ， 利 用 每 股 收益 摊薄 净利 
润 这 个 指标 ， 分 成 了 三 类 ， 而 根据 Gini 系数 差异 最 大 化 分 类 的 原则 ， 将 其 中 两 类 再 分 别 分 
为 两 小 类 ， 如 图 24-2 所 示 。 
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每 股 收益 _ 摊 薄 净 利润 ~ 
< -.477970777 


ss | T: E 
Ej >= .1045953442 


每 股 收益 _ 排 水 净利 润 - 
>= .8328029957 


| 


每 股 收益 _ 排 落 净 利润 - 
< .8328029957 


图 24-2 ”决策 树 分 析 结果 

现在 对 每 一 类 的 结果 进行 解释 。 

第 一 类 是 每 股 收益 小 于 -0.478， 这 一 类 属于 业绩 很 差 的 股票 。 这 一 类 共有 25 支 股票 ， 
其 中 涨幅 超过 平均 值 的 股票 有 9 支 ， 占 所 有 此 类 股票 总 数 的 36%。 而 没有 涨 过 平均 值 的 股 
票 有 16 支 ， 占 此 类 股票 总 数 的 64%。 

第 二 类 是 每 股 收益 小 于 0.250 且 大 于 -0.478 的 股票 ， 这 类 股票 属于 业绩 中 等 的 股票 ， 
这 一 类 共有 489 支 股 票 ,其 中 涨幅 超过 平均 值 的 股票 有 284 支 , 占 所 有 此 类 股票 总 数 的 58%。 
而 没有 涨 过 平均 值 的 股票 有 205 支 ， 占 此 类 股票 总 数 的 42%， 其 中 利用 Gini 系数 可 以 把 股 
票 进一步 划分 为 两 个 小 类 。 

第 二 类 的 第 一 小 类 是 每 股 收益 大 于 -0.478 小 于 0.105， 这 一 类 属于 业绩 比较 差 的 股票 。 
这 一 类 共有 283 支 股票 ， 其 中 涨幅 超过 平均 值 的 股票 有 199 支 ， 占 所 有 此 类 股票 总 数 的 
70.31%。 而 没有 涨 过 平均 值 的 股票 有 84 支 ， 占 此 类 股票 总 数 的 29.69% 。 

第 二 类 的 第 二 小 类 是 每 股 收益 大 于 0.105 小 于 0.250， 这 一 类 属于 业绩 中 等 的 股票 。 这 
一 类 共有 209 支 股票 ， 其 中 涨 过 幅度 超过 平均 值 的 股票 有 89 支 ， 占 所 有 此 类 股票 总 数 的 
42.58%。 而 没有 涨 过 平均 值 的 股票 有 120 支 ， 占 此 类 股票 总 数 的 57.42%. 

第 三 类 是 每 股 收益 大 于 0.250 的 股票 ， 这 类 股票 属于 业绩 比较 好 的 股票 。 这 一 类 共有 
263 支 股票 ， 其 中 涨幅 超过 平均 值 的 股票 有 42 支 ， 占 所 有 此 类 股票 总 数 的 15.97%。 而 没有 
涨 过 平均 值 的 股票 有 221 X, 占 此 类 股票 总 数 的 84.03%, 其 中 利用 Gini 系数 可 以 把 股票 进 
一 步 划分 为 两 个 小 类 。 

第 三 类 的 第 一 小 类 是 每 股 收益 大 于 0.250 小 于 0.833， 这 一 类 属于 基本 面 业绩 比较 好 的 
股票 。 这 一 类 共有 237 支 股票 ， 其 中 涨幅 超过 平均 值 的 股票 有 99 支 ， 占 所 有 此 类 股票 总 数 
的 17.73%。 而 没有 涨 过 平均 值 的 股票 有 195 支 ， 占 此 类 股票 总 数 的 82.27%。 

第 三 类 的 第 二 小 类 是 每 股 收益 大 于 0.833， 这 一 类 属于 业绩 最 好 的 股票 。 这 一 类 共有 
26 支 股 票 ， 其 中 涨幅 超过 平均 值 的 股票 有 0 支 ， 占 所 有 此 类 股票 总 数 的 0%。 而 没有 涨 过 
平均 值 的 股票 有 26 支 ， 占 此 类 股票 总 数 的 10096. 
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从 决策 树 方法 可 以 发 现 ， 由 于 有 多 重 共 线性 的 影响 ， 最 终 分 类 的 依据 标准 仅仅 从 每 股 
收益 一 摊薄 净利 润 这 个 指标 出 发 。 从 结果 发 现 ， 业 绩 好 的 股票 在 第 一 个 季度 的 表现 并 不 是 
太 好 ， 第 三 类 的 好 股票 中 超过 平均 收益 率 的 只 有 很 小 的 比率 。 而 基本 面 中 等 ， 或 者 偏 下 的 
股票 反而 涨幅 比较 居 前 。 
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贝 叶 斯 方法 的 结果 如 表 24-2 所 示 , 在 下 面 说 明 时 仅 对 表现 比较 充分 的 儿 项 进行 说 明 ( 大 
于 30%). 


表 24-2 单纯 贝 叶 斯 方法 各 种 属性 对 类 标签 值 的 影响 


属性 名 称 股票 超 涨 的 概率 /% 
股东 权益 不合 少数 股东 权益 89 
净利 润 92 
净 资产 收益 率 净利 润 31 
DTTTETTITA 70 
市 净 率 31 


资产 收益 率 31 

从 表 24-2 可 以 看 出 ， 概 率 越 大 ， 说 明 这 个 项 目 越 有 可 能 出 现 超过 平均 概率 的 机 会 。 如 
果 股 东 权益 小 于 1 860 536 171.9， 将 会 有 89% 的 概率 收益 率 超 过 平均 值 。 净 利润 如 果 小 于 
139 785 482.6, 将 会 有 92% 的 概率 , 收益 率 将 会 超过 平均 值 。 如 果 净 资产 收益 率 落 在 0.017 5 
到 0.044 这 个 区 间 上 ， 将 会 有 31% 的 概率 收益 率 超过 平均 值 。 如 果 摊 薄 净 利率 能 够 在 0.007 
到 0.214 这 个 区 间 内 ， 将 会 有 70% 的 概率 使 得 收益 率 超 过 平均 值 ， 如 果 市 净 率 小 于 1.444， 
则 有 31% 的 概率 使 得 收益 率 超 过 平均 值 ， 如 果 资 产 收 益 率 小 于 0.007， 也 会 有 31% 的 概率 
使 得 收益 率 超过 平均 值 。 

利用 贝 叶 斯 方法 ， 可 以 发 现 最 有 用 的 是 净利 润 指标 、 股 东 权 益 指 标 和 每 股 收益 的 指标 ， 
而 且 无 一 例外 都 表明 了 在 这 些 指标 表现 得 并 不 是 很 好 的 时 候 ， 甚 至 是 十 分 糟糕 的 时 候 ， 这 
些 股 票 反 而 容易 上 涨 ， 而 这 些 指标 如 果 表 现 得 很 好 ， 出 现 大 涨 的 可 能 性 反而 很 低 。 这 个 发 
现 和 决策 树 的 分 析 结 果 一 致 。 


24.6 Logistic 回归 模型 


Logistic 回归 的 结果 如 表 24-3 所 示 ， 下 面 仅 对 表现 比较 充分 的 几 项 进行 说 明 (大 
于 30%)。 
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表 24-3 Logistic 回归 各 种 属性 对 类 标签 值 的 影响 


属性 名 称 属性 取 值 区 间 非 超 涨 的 概率 比 /% 
总 资产 11 530 882 881.0—36 789 173 436.8 100 
资产 收益 率 65.57 
市 净 率 46.48 
每 股 收益 _ 挫 薄 净利 润 _ 0.419—1.229 88.1 
净利 润 1930087 093.6~-314 071 851.9 | 52.41 


股东 权益 不 含 少数 股东 权益 _ 4 766 887 835.3 一 15 410 677 353.4 51.33 


其 中 ，favor = 1 表示 涨幅 超过 均值 ， 而 favor = 0 表示 涨幅 没有 超过 均值 。 从 表 24-3 可 
以 看 出 ， 当 总 资产 在 11 530 882 881.0 到 36 789 173 436.8 这 一 区 间 内 ， 都 没有 超过 大 盘 的 ， 
从 资产 收益 率 这 一 变量 来 看 ， 可 以 发 现 ， 资 产 收益 率 在 -0.214 到 -0.028 之 间 有 65.57% 的 概 
率 涨 幅 超 过 大 盘 ， 而 资产 收益 率 在 0.079 到 0.265 之 间 有 65.57% 的 概率 涨幅 低 于 大 盘 。 从 
主 营业 务 收 入 这 一 角度 上 看 ， 可 以 发 现 主 营业 务 收 入 在 8 894 696 389.1 到 29 005 915 303.0 
之 间 的 企业 ,有 60.71% 的 概率 涨幅 会 超过 大 盘 。 从 市 净 率 来 看 , 如果 市 净 率 在 7.785 到 23.920 
之 间 的 企业 ， 有 46.48% 的 概率 涨幅 无 法 超过 大 盘 ， 而 如 果 市 净 率 在 -14.929 到 -1.575 之 间 
的 企业 ， 有 41.41% 的 概率 涨幅 可 以 超过 大 盘 。 从 每 股 收益 摊薄 净 利润 这 个 角度 上 看 ， 区 
间 在 -0.860 到 -0.050 的 企业 会 有 88.1% 的 概率 涨幅 会 超过 大 盘 。 而 摊薄 净利 润 区 间 在 0.419 
到 1.229 之 间 的 企业 , 会 有 88.1% 的 概率 涨幅 会 低 于 大 盘 。 从 净利 润 来 看 ， 如 果 净 利润 区 间 
在 623 344 541.5 到 2239 359 783.2 的 企业 ， 有 52.41% 涨 幅 会 超过 大 盘 ， 而 净利 润 区 间 在 
-1 930 087 093.6 到 -314 071 851.9 的 企业 ， 有 52.41% 的 概率 涨幅 会 劣 于 大 盘 。 从 股东 权益 
上 看 ， 如 果 股 东 权 益 在 4 766 887 835.3 到 15 410 677 353.4 区 间 上 ， 有 51.33% 的 概率 优 于 
大 盘 。 

利用 Logistic 回归 分 析 的 结果 和 决策 树 与 贝 叶 斯 分 类 类 似 ， 除 了 净利 润 这 个 指标 表现 
相反 之 外 ， 大 部 分 业绩 指标 都 是 好 的 时 候 贷 向 于 涨幅 不 大 ， 而 差 的 时 候 涨幅 居 前 。 


24.7 预测 准确 度 比 较 


利用 测试 集 ，SQL Server 2005 向 模型 中 逐渐 加 入 样本 信息 ， 同 时 产生 对 该 样本 类 标签 
值 是 否 能 够 获得 超额 收益 的 预测 。 理 论 上 说 ， 随 着 样本 量 的 加 大 〈 即 在 精确 图 表 中 ， 横 轴 
的 坐标 值 不 断 上 升 )， 预 测 的 准确 度 会 有 所 提高 。 如 图 中 绿色 的 线条 〈 上 侧 折线 ) 代表 理想 
模型 的 预测 准确 度 轨迹 。 而 随机 猜测 的 精度 为 蓝 色 线条 (下 侧 直 线 )。 而 代表 模型 的 预测 准 
确 度 轨迹 的 红线 越 贴近 绿 线 〈 即 靠近 上 侧 折 线 )， 预 测 效果 越 好 。 

对 红色 轨迹 线 积分 后 的 面积 除 以 对 蓝 色 的 随机 模型 轨迹 线 积分 后 的 面积 ， 就 是 该 模型 
的 增益 信息 量 ， 增 益 信 息 量 越 大 越 好 。 从 图 24-3 一 图 24-5 可 以 看 出 ， 三 个 模型 和 理想 模型 
的 差距 都 较 大 ， 增 益 信息 最 多 的 模型 是 单纯 贝 叶 斯 模型 ， 其 次 是 Logistic 回归 模型 ， 决 策 
树 模 型 所 含 增益 信息 明显 少 于 前 两 者 。 
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随机 猜测 


0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 
总 体 百分比 


24-3 ”决策 树 精确 图 表 ， 增 益 信息 117.89 % 


理想 模型 
Logi stica) 


随机 猜测 _ 


LEID 
$ 
x 


0% 1096 20% 30% 40% 50% 60% 70% 80% 90% L00% 
总 体 百 分 比 


24-4 Logistic 回归 精确 图 表 ， 增 益 信息 121.10 96 


100% 
90% 
80% 
70% 

总 6096 — ———— —ÀJZL- 
50% 
40% 

率 30% 
20% 
10% 

0% T -一 一 一 一 一 一 一 
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 
总 体 百分比 


随机 猜测 


24-5 ”简单 贝 叶 斯 分 类 精确 图 表 ， 增 益 信息 121.47% 


利用 测试 集 数 据 ， 还 可 以 进行 预测 成 本 比较 ， 即 建立 分 类 矩阵 ， 体 现 出 模型 预测 某 支 
股票 会 超 涨 或 不 会 超 涨 时 的 准确 率 。 三 种 方法 的 分 类 矩阵 如 表 24-4 一 表 24-7 所 示 。 
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R244 ”决策 树 方法 的 分 类 和 矩阵 


决策 树 比率 /% 
总 体 正确 率 63.25 210 
总 体 误 判 率 36.75 122 


分 类 和 矩阵 0 (Actual) 1 (Actual) 


X 24-5 Logistic 回归 的 分 类 和 矩阵 


Logistic 回归 比率 /% 个 数 
总 体 正确 率 65.66 218 
总 体 误 判 率 34.34 114 


分 类 和 矩阵 0 (Actual) 1 (Actual) 
0 71.67 52.63 % 
1 28.33 47.37 % 


表 24-6 简单 贝 叶 斯 方法 的 分 类 和 矩阵 


简单 中叶 斯 分 类 
Im 210 
TERNIR m 
分 类 和 矩阵 1 (Actual) 
0 32.89 % 

1 6711% 


R247 三 种 方法 优 劣 比较 


方 法 预测 无 投资 价值 股 正确 率 

Logistic 回归 最 优 最 差 

简单 贝 叶 斯 分 类 最 优 

决策 桂 最 优 

由 表 24-7 可 知 ， 三 种 方法 中 ，Logistic 回归 有 着 微弱 的 优势 。 但 是 ， 选 股 者 完全 不 借 
其 他 信息 ， 直 接 购买 逻辑 模型 分 类 得 出 的 投资 价值 股 时 ， 正 确 率 只 有 47.37%， 而 此 时 用 简单 
贝 叶 斯 方法 和 决策 树 方法 进行 选择 ， 准 确 率 将 达到 67.11%。 但 Logistic 回归 模型 并 非 一 无 是 
处 ， 很 多 时 候 ， 选 股 者 事先 已 综合 了 各 种 信息 罗列 出 了 一 个 初步 的 选 股 清单 ， 这 种 情况 下 ， 
当 此 算法 判定 某 股票 具有 投资 价值 ， 有 71.67% 的 正确 率 ， 显 著 高 于 其 他 两 种 方法 (60.00%)。 

简单 贝 叶 斯 分 类 能 更 清晰 地 反映 出 各 种 指标 对 于 个 股 涨幅 的 影响 ， 而 且 ， 简 单 贝 叶 斯 
分 类 的 增益 信息 含量 显著 高 于 决策 树 模型 。 所 以 ， 在 实际 操作 时 ， 应 该 将 简单 贝 叶 斯 分 类 


> 
x 


和 Logistic 回归 两 种 方法 混合 使 用 。 用 前 者 选 出 投资 价值 股 ， 用 后 者 选 出 事前 股票 列表 中 
的 无 投资 价值 股 。 
— 
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2S.1 研究 背景 


中 国 台湾 地 区 信用 卡 发 卡 量 持 续 猛 增 ， 截至 2005 年 底 ， 岛 内 信用 卡 持 卡 总 人 数 近 
880 万 人 ， 人 均 持 有 4 张 信 用 卡 。 信 用 卡 泛滥 导致 呆账 缺口 惊人 ，2003 年 我 国 台 湾 地 区 信 
用 卡 发 卡 机 构 呆 账 转 销 金 额 达 263 亿 元 新 台币 (单位 下 同 )， 其 中 只 收回 41.5 亿 元 ， 实 际 
损失 高 达 221.5 亿 元 。 日 趋 严重 的 信用 卡 欠 债 问 题 给 社会 带 来 了 巨大 冲击 。 受 此 影响 , 2006 
年 上 半年 岛 内 信用 卡 消费 出 现 大 幅 衰 减 。 据 台 “ 行 政 院 主 计 处 ”最 新 公布 的 统计 数据 显示 ， 
2006 年 1 月 至 6 月 岛 内 民众 使 用 信用 卡 签 账 金额 为 6 961 亿 元 , 比 去 年 同期 减少 118 亿 元 ; 
预 借 现金 金额 为 520 亿 元 ， 比 去 年 同期 大 减 568 亿 元 ， 显 示 “ 卡 债 ”风暴 已 经 严重 影响 了 
信用 卡 消费 。 

近年 来 ， 随 着 各 种 信用 卡 的 泛滥 ， 有 报道 称 台 湾 地 区 一 位 “天 王 级 持 卡 人 ”一 人 拥有 
160 张 信 用 卡 的 传奇 ,他 们 有 些 背负 巨额 信用 卡 债务 ， 甚 至 连 最 低 应 缴 还 金额 都 付 不 出 的 
“ 卡 奴 ”也 越 来 越 多 。 根 据 银 行业 估计 ， 目 前 在 台湾 地 区 1 100 万 经 济 人 口 (有 收入 或 有 
收入 能 力 者 ) 中 ， 约 有 70 万 “ 卡 奴 ” 即 每 百名 经 济 人 口中 约 有 6 个 人 是 “ 卡 奴 ”。 

作为 发 行 信 用 卡 的 银行 ， 如 何 使 自己 发 行 的 信用 卡 盘 利 最 大 化 ， 留 住 忠诚 客户 ， 针 对 
不 同 客户 推出 差异 化 服务 ， 减 少 呆 账 坏账 ， 都 是 银行 对 信用 卡 客户 进行 风险 管理 和 营销 的 
一 部 分 。 

信用 卡 主要 有 以 下 风险 : 

信用 风险 (credit risk)， 因 持 卡 人 信用 不 良 而 产生 的 拒 付 风 险 。 表 现 为 持 卡 人 由 于 经 济 
情况 恶化 ， 无 力 还 款 ， 使 银行 贷款 无 法 收回 ， 形 成 呆账 损失 的 可 能 性 ， 从 而 引发 信用 风险 。 

欺诈 风险 (fraud risk)， 因 诈骗 所 产生 的 风险 ， 交易 非 为 持 卡 人 所 授意 或 使 用 。 信 用 卡 
及 卡 上 信息 被 盗 取 后 使 用 ， 一 般 来 说 ， 损 失 由 发 卡 银行 承担 。 

作业 风险 〈operation risk)， 因 管理 和 作业 流程 上 的 操作 不 当 而 产生 的 风险 。 在 实际 工 
作 中 ， 有 的 工作 人 员 有 章 不 循 、 违 规 操 作 ， 从 而 造成 不 应 有 的 风险 。 

客户 信用 风险 评估 及 动态 调整 : 客户 初始 信用 风险 评估 是 当 客 户 申请 新 的 信用 卡 时 ， 
通过 客户 填写 的 基本 信息 ， 系 统 给 出 的 一 个 建议 性 的 初始 信用 等 级 。 以 客户 的 历史 数据 为 
输入 ， 表 现 为 客户 的 初始 信用 等 级 分 布 特征 ， 采 用 数据 挖掘 技术 建立 模型 ， 来 预测 新 客户 
的 初始 信用 等 级 。 客 户 的 信用 等 级 是 一 个 动态 变化 的 过 程 ， 应 该 随 着 客户 消费 行为 作 相应 
的 调整 。 根 据 客 户 的 特征 数据 〈 客户 基本 信息 )、 客 户 的 交易 数据 以 及 一 些 有 意义 的 汇总 
数据 ， 构 建 动态 的 信用 风险 评估 模型 ， 让 银行 了 解 客户 当前 信用 等 级 的 分 布 特征 ， 并 预测 
下 一 阶段 〈 月 ) 客户 的 信用 风险 趋势 。 
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25.2 研究 动机 


基于 上 述 研究 背景 ， 本 研究 得 出 以 下 研究 动机 : 

由 于 信用 卡 市 场 鞍 勃 发 展 ， 在 信用 卡 如 此 普及 的 情况 下 ， 衍 生出 的 商机 成 为 各 大 银行 
的 焦点 ， 但 是 同时 也 潜在 着 一 定 的 风险 。 使 用 信用 卡 的 顾客 有 数 百 万 笔 的 庞大 数据 量 ， 而 
且 每 个 持 卡 人 的 信息 〈 如 收入 、 家 庭 、 居 住地 点 等 ) 对 银行 进行 风险 控制 很 重要 。 面 对 如 
此 庞大 的 数据 ， 需 用 数据 挖掘 的 技术 配合 相关 的 统计 方法 去 分 析 数 据 并 从 中 挖掘 信用 卡 市 
场 中 的 顾客 群 ， 对 不 同 的 用 户 提供 不 同 的 策略 ， 指 引信 用 卡 向 着 健康 的 方向 发 展 。 
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由 于 如 今 计 算 机 运算 能 力 的 跃进 ， 以 及 数据 储存 技术 的 进步 ， 使 得 数据 挖掘 (data 
mining) 成 为 近年 来 数据 库 应 用 领域 中 相当 热门 的 议题 。 数 据 挖掘 技术 近年 来 逐渐 受到 重 
视 , 不 仅 是 因为 企业 或 研究 社会 的 机 构 单位 将 它 用 在 描述 数据 型 态 与 结构 上 , 更 重要 的 是 
此 技术 将 管理 技巧 与 管理 行为 引入 ， 许 多 文献 中 都 有 应 用 数据 挖掘 技 术 成 功 的 例子 ， 其 中 
包括 金融 业 、 电 信 业 、 零 售 商 、 直 销 营销 、 制 造 业 、 医 疗 保健 及 制药 业 等 。 

本 研究 利用 数据 挖掘 技术 来 为 信用 卡 业 带 来 更 深入 的 信息 ， 找 出 不 同类 型 的 用 户 ， 以 
提供 在 决策 上 的 判断 依据 ， 故 利用 统计 抽样 方法 结合 数据 挖掘 技术 ， 以 聚 类 分 析 、 决 策 树 
分 析 等 统计 相关 分 析 方 法 ， 针 对 样本 数据 进行 相关 分 析 ， 并 建立 模型 ， 将 现 有 顾客 数据 加 
以 分 群 ， 找 出 各 群 中 不 同 特性 之 分 布 情形 ， 借 以 从 大 量 的 顾客 数据 中 发 气 出 信用 卡 市 场 的 
优质 客户 群 ， 以 提供 相关 信息 给 业者 ， 并 协助 业者 开发 各 种 产品 ， 以 满足 各 式 各 样 的 顾客 ， 
以 此 提升 市 场 占有 率 。 


25.4 Excel 2007 构建 数据 挖掘 模型 
25.4.1 决策 树 分 析 


在 做 数据 挖掘 模型 之 前 ， 先 生成 一 个 新 序列 ， 将 每 笔 资料 从 1 开始 ， 生 成 以 等 差 为 1 
递增 的 递增 数列 ， 命 名 为 序列 ， 以 “序列 ”作为 数据 挖掘 模型 的 索引 键 。 在 发 行 信用 卡 ， 
首先 对 客户 进行 初步 判断 ， 看 其 是 否 具有 瑕 症 ， 对 瑕 症 客 户 要 谨慎 ， 所 以 首先 以 “ 瑕 疣 户 ” 
为 因 变 量 ， 建 立 不 同 变量 的 决策 树 模型 。 

1. 模型 的 建立 

模型 DT-1 的 自 变量 选取 SQL 给 出 的 建议 变量 作为 自 变量 ， 例 如 有 呆账、 借款 余额 、 拒 
往 记 录 、 年 龄 模拟 、 强 制 停 卡 记 录 、 血 型 、 职 业 。 而 且 对 是 否 为 瑕 症 户 的 影响 的 大 小 分 别 
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为 : 强制 停 卡 记录 > 职业 二 血型 > 年 龄 模拟 > 借款 余额 > 有 呆账 > 拒 往 记录 ， 考 虑 到 这 样 做 
有 可 能 会 产生 过 度 拟 合 , 决策 树 过 于 庞大 , 故 模型 DT-2 自 变量 选取 对 瑕 疯 户 影响 最 强 的 前 
四 个 变量 作为 自 变量 ， 如 图 25-1 所 示 。 


Hw.dsv [Bi] AFE S he- Data.dmm [it]. 起 站 页 | s 
D 挖 据 结构 [A EERE |A 挖 所 模型 查看 器 | 有 | 挖 据 惟 确 性 图 表 | 挖 据 模型 预测 
q es x 
结构 [yi [v 
sa Microsoft Decision T " ft Decision T 
y Rk E dpt * um 
(^ EAR E It 3 a 
[5 etek 4 Input 区 s= 
他 年 龄 模拟 +] Input 司 Input 
(4 强制 停 卡 记录 E Int £I] Isput 
[A ER E Tot 3 a 
S NEP F) PredictOrly F) PredictOnly 
Ese £e E te 
dome E Input E Input 
(f 688 E Input 区 um 
[^ Vel £ Input E Input 


图 25-1 SQL 的 建议 变量 
2. 模型 的 决策 树 分 析 
DT-1 的 树 型 如 图 25-2 所 示 : 有 强制 停 卡 记录 的 用 户 都 是 甫 疯 户 ;由 于 模型 比较 庞大 ， 
选择 几 条 树枝 作为 解释 ， 没 有 强制 停 卡 记 录 ， 职 业 为 12〈 销 售 职 )， 血 型 为 2 (B 型 ) 的 也 
为 瑕 钼 户 。 没 有 强制 停 卡 记录 ， 职 业 为 12 (销售 职 )， 有 呆账 为 2 〈 没 有 采 账 记录 的 人 ) 的 也 
ABC" o 


j| mi- 16 | 
== 

职业 = 1135 |. 

ALLEE ETE. 

职业 = '6 | 

职业 = '4 l 

职业 = le 

= 20 le 

职业 = le 
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DT-2 的 树 型 如 图 25-3 Pros: 有 强制 停 卡 记录 的 用 户 都 是 瑕 症 户 ; 由 于 模型 比较 庞大 
选择 几 条 树枝 作为 解释 ， 没 有 强制 停 卡 记录 ， 职 业 为 12〈 销 售 职 )， 血 型 为 2 CB 型 ) 的 也 
为 瑕 盖 户 。 没 有 强制 停 卡 记录 ， 职 业 为 11 (事物 职 )， 年 龄 模拟 为 36， 血 型 为 2(B 型 ) 的 
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25-3 DT2 树 型 
3. 精确 度 比 较 分 析 
(1) 提升 图 分 析 
从 图 25-4 可 以 看 出 ， 两 个 模型 的 拟 合 精度 都 很 好 ， 在 总 体 百分比 为 50% 的 时 候 ， 两 个 
模型 的 预测 率 都 是 100%。 


[未 Est | 人 mems |; ceutssm [ERENER | EEREN 
Ap 提升 图 |as] 


RM: 也 o g 设置 到 
| 挖 气 结 构 的 数据 挖掘 提升 图 : 信用 卡 交易 Data 


是 一 一 | 一 一 | 一 一 一 


4 网 休 % 60 80 100 


0 
ELI 
图 25-4 提升 图 
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(2) 分 类 矩阵 分 析 

从 图 25-5 也 可 以 看 出 ， 瑕 竟 户 取 2 时 ， 模 型 DT-1 的 正确 预测 数 123 736 大 于 DT2 的 
正确 预测 数 123 712; OK H 1 时 ， 模 型 DT-1 的 正确 预测 数 6 866 大 于 DT-2 的 正确 预测 
数 6634， 故 模型 DT-1 精度 要 优 于 模型 DT-2。 


DB) 上 WT-! 的 计数 : 


M 2 Gm) 1 GN) 
2 123136 318 
1 148 6666 


E z Gp 
25-5 ”分 类 和 矩阵 
4. 预测 分 析 


告 截取 了 一 小 部 分 数据 的 事后 预测 图 ， 分 别 用 了 两 个 模型 进行 预测 ， 可 以 看 出 两 个 
模型 大 部 分 的 预测 是 相同 的 ， 如 图 25-6 所 示 。 


图 25-6 事后 预测 图 
254.20 聚 类 分 析 


聚 类 分 析 就 是 通过 分 析 样 本 数据 库 中 的 数据 ， 为 每 个 类 别 做 出 准确 的 描述 ， 或 建立 分 
类 模型 ， 或 挖掘 出 分 类 规则 ， 然 后 用 这 个 分 类 规则 对 其 他 记录 进行 分 类 。 分 类 模型 也 可 用 
于 预测 ， 根 据 已 经 分 好 类 的 资料 来 研究 它们 的 特征 ， 然 后 根据 这 些 特征 对 其 他 未 经 分 类 的 
或 新 的 数据 做 预测 。 例 如 ， 将 信用 卡 申 请 者 的 风险 属性 区 分 为 高 度 风 险 申 请 者 、 中 度 风险 
申请 者 及 低 度 风险 申请 者 。 根 据 经 验 和 数据 本 身 的 特征 将 信用 卡 持 卡 人 分 别 分 为 四 类 。 
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1. 分 类 关系 图 
图 25-7 所 示 为 分 类 关系 图 。 


分 类 关系 图 | 分 类 囊 面 图 | 分 类 特征 | 分 类 对 比 | 
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图 25-7 分 类 关系 图 
2. 分 类 剖面 图 
图 25-8 所 示 为 分 类 前面 图 。 
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第 25 章 WAFER Embee] E 


3g ja ri S A PERI EUE UB. 1. 2. 3 类 都 不 存在 呆账 情况 ，4 类 呆账 比较 明显 。 各 类 
人 群 在 个 人 月 开销 中 和 都 市 化 程度 上 差别 不 大 ， 也 就 是 说 信用 卡 的 评级 好 坏 可 能 与 这 两 个 
变量 关系 不 大 。 各 群 的 个 人 月 收入 之 间 差 异 较 大 ， 第 1 类 收入 较 低 ， 大 部 分 在 10 000 元 以 
下 ， 第 2 类 主要 集中 在 20 000—40 000 元 之 间 ， 第 3 类 主要 在 50 000 元 以 上 ， 第 4 群 各 收 
入 阶层 的 都 有 。 借 款 余额 只 有 第 4 类 是 大 于 800 万 元 ， 其 余 都 没有 。 拒 往 记 录 和 强制 停 卡 
记录 也 只 是 第 4 类 有 ， 其 余 的 没有 。 其 余 变量 之 间 相 差 不 大 。 
(1) 分 类 特征 图 
图 25-9 所 示 为 分 类 特征 图 。 
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25-9 ”分 类 特征 图 


从 分 类 特征 图 可 以 详细 地 看 出 每 一 群 持 卡 人 的 特征 。 通过 前 面 的 分 析 和 图 25-9 的 对 比 
分 析 ， 我 们 可 以 看 出 分 类 4 是 一 个 风险 性 非常 高 的 群 ， 具 有 强制 停 卡 记录 ， 傅 期 不 还 的 不 
良 记录 ， 还 有 退票 记录 〈 即 支票 不 能 兑现 )， 借 款 余额 超过 800 万 元 ， 具有 呆账 记录 〈 账 不 

能 收回 )， 具 有 瑕 疲 ， 而 这 些 分 类 1、 分 类 2 和 分 类 3 都 不 具有 。 根 据 上 面 的 分 析 ， 将 分 类 
4 定 为 高 风险 群 ， 建 议 银行 在 给 该 类 人 和 群 办 理 信 用 卡 时 要 慎重 ， 如 果 情 况 较为 严重 ， 最 好 
不 要 给 该 类 人 群 办 理 信用 卡 。 

(2) 分 类 对 比 图 

通过 分 类 对 比 图 , 可 以 看 出 群 两 两 之 间 的 差别 和 对 比 关系 , 如 图 25-10— B 25-12 所 示 。 
在 本 报告 中 把 关联 性 最 强 的 分 类 2 和 分 类 3 进行 对 比 ， 分 类 1 和 分 类 4 进行 对 比 。 
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25-10 ”分 类 对 比 图 1 


分 类 关系 图 | 分 类 剖面 图 | 分 类 特征 “分 类 对 比 | 
asip: ë sx] 分 类 [EGNEENEENN- 


变量 倾向 于 分 类 2 倾向 于 分 类 3 
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个 人 月 收入 
家 庭 月 收入 
个 人 月 收入 
月 刷卡 额 
个 人 月 收入 
月 刷卡 额 
住家 

住家 
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图 25-11 分 类 对 比 图 2 

分 类 1、 分 类 2 和 分 类 3 的 关联 性 不 是 很 强 ， 分 类 2 和 分 类 3 的 关联 性 最 强 ， 分 类 1 
和 分 类 2 的 对 比分 析 如 下 :分 类 1 的 家 庭 月 收入 较 低 , 集中 在 1.2020 000 元 以 下 和 20 001— 
40 000 元 ) 附 近 , 收入 较 低 ; 分 类 2 的 家 庭 月 收入 集中 在 3.4 (40 001—60 000 元 和 60 001 一 
80 000 元 )， 收 入 中 等 ; 分 类 3 的 家 庭 月 收入 集中 在 5. 6 (80 001 一 100 000 元 和 100 001 


266 d 


第 25 章 “车 用 卡 用户 信 用 评测 的 挖 振 樟 型 | 图 是 | 


元 以 上 )， 属 于 高 收入 家 庭 。 分 类 1 的 个 人 月 收入 较 低 ， 集 中 在 1、2 (无 收入 和 10 000 元 
以 下 ) 附近 ， 收 入 较 低 ; 分 类 2 的 个 人 月 收入 集中 在 3. 4 (10 001 一 20 000 元 和 20 001— 
30000 元 )， 收 入 中 等 ; 分 类 3 的 个 人 月 收入 集中 在 5. 6 (80 001 一 100 000 元 和 100 001 
元 以 上 ), 属于 高 收入 人 群 。 同时 注意 到 ， 有 部 分 个 人 月 收入 很 高 ， 达 到 50 001 一 60 000 元 
甚至 60 001 元 以 上 , 但 是 由 于 他 们 属于 “购物 狂 一族 , 月 刷卡 额 达 到 4. 5 (60 001 一 80 000 
元 和 80 001~100 000 元 )， 他 们 也 属于 分 类 2。 


peen: [102 =] zem [uen 58288 zla 
分 类 关系 图 | 分 类 剖面 图 | 分 类 特征 ”分 类 对 比 | 
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25-12 分 类 对 比 图 3 


通过 以 上 分 析 ， 可 以 得 出 分 类 1、2、3、4 的 信用 等 级 分 别 为 低 、 中 、 高 和 极 低 。 分 类 
1 是 较 高 度 风险 申请 者 ， 对 待 分 类 1 的 顾客 要 注意 防范 和 控制 风险 ， 因 为 他 们 的 收入 和 家 
庭 经 济 比较 低 ， 如 果 产 生 太 多 的 透支 ， 可 能 导致 他 们 不 能 按时 还 款 ; 分 类 2 属于 中 度 风险 
申请 者 ， 他 们 的 收入 和 家 庭 经 济 属于 中 等 ， 这 一 群 人 也 是 数量 较 多 的 一 类 ， 合 理 地 设 定好 
他 们 的 消费 限额 ， 不 仅 有 利于 控制 他 们 的 风险 ， 而 且 也 能 很 好 地 为 银行 创收 。 分 类 3 是 低 
度 风险 申请 者 ， 这 一 类 人 是 高 收入 、 家 庭 经 济 非 常 恨 好 的 一 类 ， 还 款 能 力 较 强 ， 在 申请 信 
用 卡 时 可 针对 他 们 提供 很 多 优惠 措施 ， 经 常 为 其 提供 个 性 化 良好 服务 。 分 类 4 是 高 风险 申 
请 者 ， 这 一 群 人 以 前 就 有 过 不 良 的 信用 卡 记录 ， 在 对 他 们 发 放 信用 卡 时 要 特别 留心 ， 花 更 
多 的 时 间 进 行 审核 。 
3. 精确 度 分 析 
(1) 借款 余额 精确 度 分 析 
图 25-13 为 挖 据 结 构 的 资料 挖掘 精确 度 借款 余额 增益 图 ， 借 款 余额 的 预测 概率 
为 99.21%。 
图 25-14 为 挖 据 结 构 的 资料 挖掘 精确 度 借款 余额 的 分 类 算 阵 。 
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| 挖 气 结 构 的 数据 挖掘 提升 图 : clul 
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25-13 ”借款 余额 增益 图 
mati | 提升 图 HSE | 
EIL uL 
[借款 余额 ]】 上 a 的 计数 : 
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A 25-14 ”借款 余额 分 类 和 矩阵 
从 预测 借款 余额 的 角度 上 讲 ， 这 个 模型 的 预测 效果 很 好 。 
(2) DR HH AT 
图 25-15 为 挖掘 结构 的 资料 挖掘 精确 度 瑕 症 户 增益 图 ， 
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借款 余额 的 预测 概率 为 10096. 
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挖 气 结 构 的 数据 挖掘 提升 图 : clul 
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图 25-16 为 挖 据 结 构 的 资料 挖 气 精 确 度 瑕 竟 户 的 分 类 甜 阵 。 


EN] 分 类 矩阵 中 的 列 对 应 于 实际 值 ; 行 对 应 于 预测 值 


BEP] E clu 的 计数 : 


图 25-16 REPAIRER 
25.4.3 Logistic 回归 


1. 模型 的 建立 及 解释 
以 借款 余额 (大 于 800 万 元 ， 小 于 800 万 元 ) 为 因 变量 ， 其 他 变量 为 自 变量 ， 希 望 以 
其 他 变量 去 预测 借款 余额 ， 找 出 哪些 变量 与 借款 余额 有 关系 ， 如 图 25-17 所 示 。 
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图 25-17 建立 模型 
借款 余额 大 于 800 万 元 的 99.89% 都 具有 呆账 记录 ，96.33% 有 拒 往 记 录 〈 直 接 被 银行 
拒 掉 )。 
2. 模型 的 准确 性 分 析 
从 图 25-18 的 分 析 可 以 看 出 ， 模 型 的 预测 效果 是 很 好 的 ， 达 到 99.8%， 得 分 很 好 ， 达 
到 了 1， 从 这 一 层面 来 说 模型 的 建立 是 有 效 的 。 
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25-18 ”准确 性 分 析 
如 图 25-19 所 示 ， 从 分 类 矩阵 看 ， 只 有 极 少数 的 人 借款 余额 大 于 800 万 元 而 预测 错 了 ， 
借款 余额 小 于 800 万 元 的 预测 结果 都 正确 。 
a | SESEREPRERIMIEET SERIE : 行 对 应 于 预计 
[借款 余额 ] 上 legitlll 的 计数 : 


25-19 分 类 和 矩阵 
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第 26 章 市 场 营 销 与 客户 细 分 的 挖掘 模型 


26.1 研究 动机 与 目的 


现 阶段 ， 国 内 的 卷烟 市 场 具有 垄断 与 竞争 的 双重 特点 。 在 营销 领域 ， 各 地 烟草 公司 拥 
有 唯一 的 卷烟 进货 权 和 批发 权 ， 通 过 许可 证 制度 ， 在 卷烟 生产 、 供 应 、 分 销 和 零售 等 环节 
建立 了 严格 的 专卖 专营 体系 。 目 前 ， 国 内 卷烟 企业 众多 ， 产 品 差 异化 程度 低 ， 且 卷烟 生产 
能 力 远 大 于 市 场 需求 ， 导 致 行业 内 部 竞争 空前 激烈 。 随 着 我 国 加 入 WTO， 中 国 的 烟草 行业 
将 在 未 来 的 几 年 内 面临 全 面 开放 的 市 场 ， 进 入 国内 市 场 国际 化 的 全 面 自由 竞争 局 面 。 中 国 
烟草 正 迈 入 一 个 品牌 竞争 的 时 期 ， 我 国 烟草 行业 品牌 建设 与 市 场 营销 能 力 存在 很 大 差距 。 

因此 ， 积 极 开 展 卷烟 市 场 研究 ， 为 卷烟 生产 企业 和 销售 公司 品牌 培育 、 营 销 决策 提供 
参考 信息 ， 变 得 越 来 越 重 要 。 考 虑 到 很 多 地 区 的 烟草 公司 都 初步 建立 了 包含 卷烟 零售 户 的 


26.2 研究 方法 与 限制 


相 比 于 其 他 市 场 ， 卷 烟 销售 市 场 有 某 些 鲜明 的 特点 : 按照 国内 有 关 法 律 的 限制 ， 卷 烟 
企业 品牌 展示 的 主要 手段 是 在 零售 户 的 店面 内 陈列 卷烟 样品 ， 业 内 称 此 为 出 样 。 而 且 卷烟 
作为 一 种 专卖 专营 的 快速 消费 品 ， 烟 草 专卖 管理 局 和 烟草 销售 公司 一 直 有 对 销售 渠道 进行 
管制 的 权限 ， 体 现 出 “垂直 管理 、 专 营 专卖 ”的 特点 。 为 了 便于 管理 ， 管 理 机 构 根 据 零售 
户 在 销售 时 是 否 遵守 相关 法 规 (例如 有 无 经 营销 售 假冒 卷烟 、 乱 渠道 进 烟 的 行为 )， 又 会 评 
出 零售 户 的 等 级 和 类 别 。 

现在 从 数据 库 筛 选 出 一 笔 资料 :我国 北方 某 省 某 地 区 的 1 317 个 卷烟 零售 户 在 一 个 月 
内 购买 各 种 品牌 卷烟 的 记录 共 91 693 条 。 而 后 ， 依 次 采用 六 种 分 析 算 法 做 挖掘 分 析 : 决策 
树 、 贝 叶 斯 概率 、 聚 类 、 决 策 树 、Logistic 回归 ， 以 及 关联 分 析 。 


263 数据 分 析 


在 做 挖掘 建 模 之 前 ， 先 对 数据 的 几 项 变量 作 基本 的 描述 统计 分 析 。 
先 考 察 这 1317 个 卷烟 零售 户 的 结构 , K 26-1 反映 了 这 些 零售 户 店主 的 文化 素质 构成 。 
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表 26-1 卷烟 零售 户 店主 文化 素质 构成 


文化 素质 比重 /% 
缺失 2.9 
初中 55.6 
大 学 以 上 í2 
大 专 3.2 
高 中 31.3 
小 学 5.8 


可 见 ， 绝 大 部 分 零售 户 的 文化 程度 为 初中 和 高 中 。 
从 表 26-2 可 知 , 大 部 分 客户 属于 3 星 级 的 B 类 户 , 占 57.9%, 其 次 是 4 星 级 的 A 类 户 ， 
H 39.3%。 


3262 客户 分 类 
* P a 


在 表 中 
比重 /% 
缺失 
2H 
35 
4 星 


图 26-2 所 示 为 卷烟 零售 户 每 月 销售 总 数 分 布 。 
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图 26-1 卷烟 零售 户 每 月 销售 额 分 布 图 26-2 ”卷烟 零售 户 每 月 销售 总 数 分 布 
图 26-3 所 示 为 卷烟 零售 户 利润 分 布 。 
分 析 本 月 卷烟 销售 记录 的 频数 ， 按 照 零售 户 的 “地 段 人 气 ” 属 性 ， 分 类 如 表 26-3 所 示 。 
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图 26-3 ”卷烟 零售 户 利润 分 布 
表 26-3 按 “ 地 段 人 气 ” 属 性 分 类 


地 E À < 百分比 /% 
繁华 交通 要 道 14.66 
较 偏远 8.63 
居民 区 一 般 街道 74.27 
偏远 山区 0.20 
市 内 主要 商业 街 2.24 

总 计 100 


可 见 ， 本 月 绝 大 多 数 的 销售 事项 是 发 生 在 店面 在 居民 区 一 般 街道 的 零售 户 这 一 群体 中 
的 ， 其 次 是 店面 在 繁华 交通 要 道 的 零售 户 和 较 偏 远 的 零售 户 。 
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香烟 零售 市 场 存在 数 百 个 品种 的 卷烟 ， 一 一 分 析 其 销售 规律 工作 量 过 大 。 不 妨 参考 我 
国 的 烟草 销售 制度 ， 将 不 同 种 类 香烟 按照 价格 分 为 五 个 等 级 。 

一 类 烟 : 不 含 税 调拨 价 100 元 /条 以 上 。 

二 类 烟 : 不 含 税 调拨 价 50 一 100 元 /条 。 

三 类 烟 : 不 含 税 调拨 价 30 一 50 元 /条 。 

四 类 烟 : 不 含 税 调拨 价 16.5 一 30 元 /条 。 

五 类 烟 : 不 含 税 调拨 价 16.5 元 /条 以 下 。 

从 中 研究 每 种 等 级 香烟 的 销售 规律 。 挖 掘 模型 以 自动 编码 row_index 为 索引 键 ,“ 香 烟 
等 级 ”为 因 变量 ， 建 立 了 两 个 决策 树 模 型 ， 分 别 命名 为 tree 和 treel 。 其 中 模型 tree 的 自 变 
量 为 所 有 其 他 变量 ， 模 型 treel 则 在 自 变 量 列表 中 删 掉 了 “利润 ”变量 。 

表 26-4、 表 26-5 为 tree 模型 和 treel 模型 的 自 变量 设 定 。 
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表 26-4 tree 模型 的 自 变量 设 定 


输入 自 变 量 名 含 x 类 型 
出 样 能 力 柜台 陈列 卷烟 样品 的 数量 整 型 变量 
出 样 形式 陈列 卷烟 样品 的 形式 分 类 变量 
从 业 人 数 该 商户 的 员工 人 数 整 型 变量 
地 段 人 气 店面 所 处 地 段 的 繁华 程度 分 类 变量 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 
结算 方式 付 货款 的 方式 分 类 变量 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 分 类 变量 
利润 率 每 种 卷烟 的 零售 利润 率 连续 变量 
入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 日 期 变量 
是 否 主 营 主 营 卷烟 还 是 兼 营 分 类 变量 
文化 素质 店主 〈 法 人 代表 ) 的 学 历 分 类 变量 
许可 证 种 类 持 有 何 种 零售 许可 证 分 类 变量 
营业 面积 连续 变量 
主管 部 门 地 的 ; zi j 分 类 变量 
总 数 整 型 变量 

输入 自 变量 名 S x 

出 样 能 力 卷烟 样品 的 数量 

出 样 形式 Ë 烟 样 品 的 形式 

从 业 人 数 商户 的 员工 人 数 

地 段 人 气 店面 所 处 地 段 的 繁华 程度 

订货 类 型 电话 或 网 络 等 订货 方式 

结算 方式 付 货款 的 方式 

客户 类 别 -种 烟草 管理 部 门 的 评价 

客户 星 级 -种 烟草 管理 部 门 的 评价 

入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 

是 否 主 营 主 营 卷 烟 还 是 兼 营 

文化 素质 店主 〈 法 人 代表 ) 的 学 历 

许可 证 种 类 持 有 何 种 零售 许可 证 

营业 面积 店面 的 营业 面积 

主管 部 门 所 在 地 的 烟草 零售 主管 部 门 

总 数 某 商 户 月 销售 总 数 


1. 数据 挖掘 模型 查看 器 
(1) 模型 tree 
图 26-4 为 模型 tree 的 分 类 树 结构 ， 模 型 tree 总 共有 6 层 ， 自 决策 树 的 顶端 向 下 ， 前 五 
层 的 变量 都 是 利润 率 。 关 联 性 强度 为 : 利润 率 > 总 数 > 主管 部 门 。 由 此 可 知 零 售 户 每 次 购 
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买 的 卷烟 等 级 与 该 品牌 卷烟 的 利润 率 ( 即 进 销 价差 额 除 以 进 价 ) 有 最 强 的 关联 性 , 如 图 26-5 
所 示 。 


s 
FHH Excel E) 


决策 树 | 依 束 关系 网 络 
AS) Bj] EJE [a 显示 长 名 称 (L) 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 
景 强 链接 — [H] 所 选 节点 J] 所 选 节点 预测 此 节点 
国 此 节点 预测 所 选 节点 IB 双向 预测 


AE Excel (E) 


26-5 ”模型 tree 关联 性 强度 图 


(2) 模型 treel 
模型 treel 是 忽略 最 强 关 联 性 的 变量 “利润 率 ” 后 得 出 的 ， 这 样 可 以 更 加 详细 地 反映 其 
他 自 变 量 和 香烟 等 级 的 关系 。 图 26-6 为 模型 treel 的 分 类 树 结构 , 模型 treel 决策 树 为 六 层 ， 
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第 一 层 是 “客户 星 级 ”。 图 26-7 为 treel 的 关联 性 强度 图 ， 关 联 性 强度 大 小 为 : 主管 部 门 > 
总 数 > 地 段 人 气 > 客户 星 级 > 客户 类 别 > 出 样 能 力 ， 由 此 可 知 零 售 户 某 次 购 进 的 卷烟 等 级 
与 其 月 销售 量 及 其 “主管 部 门 ”有 着 最 强 的 关联 性 。 


决策 村 ge EU 


事例 总 计 : 91693 
事例 “概率 直方 图 
Ises m" 


16. 68% 
0.00% 
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26-6 ”模型 tree1 分 类 树 结构 
A 33] 9. 


决策 树 | 依赖 关系 网 绍 
加 加 (Js) EJE (a) 口 显 示 长 名 称 (L) 


气 


| C em 
(ED ipai) 


o- | 


所 有 链接 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 
meus Mrita Bl 所 选 节点 预测 此 节点 
E] 此 节点 预测 所 选 节点 B 双向 预测 


26-7 ”模型 tree1 关联 性 强度 图 


2. 数据 挖掘 精确 度 图 表 

为 了 检验 上 述 两 个 决策 树 模型 tree. treel 的 效能 ， 可 以 采用 画 准确 性 图 表 的 方法 。 例 
如 图 26-8 所 示 的 模型 tree 预测 “四 类 烟 ” 的 准确 性 图 表 ， 预 测 能 力 均 接近 理想 模型 ， 显 示 
该 模型 均 能 做 有 效 的 分 类 和 预测 。 当 然 ， 该 模型 也 有 其 缺点 ， 就 是 强调 “利润 率 ” 自 变量 ， 
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而 忽视 了 其 他 自 变量 同 香烟 等 级 的 关系 。 
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Dn Phl source iii B Cluesificetion Matriz 0, Clessification rio EU UN 
26-8 ”模型 tree 预测 “四 类 烟 ” 准 确 性 图 表 
而 反观 模型 ree1， 总 体 来 说 ， 其 预测 准确 度 比 模型 tree 低 。 例 如 图 26-9 和 图 26-10 所 
示 的 预测 “四 类 烟 ” 和 “一 类 烟 ” 的 准确 性 图 表 。 其 考虑 了 “利润 率 ” 自 变量 之 外 的 其 他 
变量 与 香烟 等 级 的 关系 ,而 这 些 关 系 的确 有 重要 的 意义 。 例 如 “卷烟 零售 主管 部 门 ”" 和“ 香 
烟 等 级 ”之 间 的 相互 影响 的 关系 往往 不 容易 直接 观察 到 。 
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26-10 ”模型 tree1 预测 “一 类 烟 ” 准 确 性 图 表 


图 26-11 和 表 26-6 为 tree 的 分 类 和 窍 阵 ， 由 分 类 矩阵 中 亦 可 看 出 分 类 的 正确 率 很 高 。 
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0.09 % 0.81 & 
1.81 % 97.38 % 5.15 % 0.00 * 1.64 % 
0.49 X 1.65% 93.88 % 0.00 % 0.01 * 
0.00 % 0.05 € 0.00 X 96.02 % 0.00 % | 
0.53 % 0.84 € 0.16 % 3.03 & 98.35 X, | 
974756 97.38 % 93.88% 96.02% 98.35 % 7 
2.83% 2.62% 612% 3.98% 1.65% 
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26-11 HH tree 分 类 和 矩阵 
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图 26-6 tree 模型 分 类 和 矩阵 % 
一 类 (实际) 五 类 (实际) | 四 类 (实际) 
类 97.17 0.95 0.00 
= 1.81 0.00 1.64 
二 类 0.49 0.00 0.01 
五 类 0.00 96.02 0.00 
四 类 0.53 3.03 98.35 
正确 97.17 96.02 98.35 
分 类 错误 2.83 3.98 1.65 


而 treel 的 分 类 效果 并 不 稳定 。 针 对 “四 类 烟 ” 很 高 (当然 ， 这 非常 重要 ， 因 为 “四 类 
”是 销售 量 最 大 的 烟 种 ， 给 零售 户 带 来 的 利润 仅 次 于 “三 类 烟 ”)， 但 是 对 于 其 他 等 级 的 
分 类 正确 率 却 较 低 ， 如 图 26-12 和 表 26-7 所 示 。 
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9 ARR 三 类 (实际 jj 二 类 (实际 ) w= 五 类 (实际 ) lw 四 类 (实际 ) | 
10 一 类 0.00 x 0.00 % 0.00 % 0.00 % 0.00 % 
nk 1.89 % 0.36 % 0.51 % 0.00 € 0.15 % 
i2 二 类 0.15 % 0.02 € 0.07 % 0.00 X 0.00 X 
13 | 五 类 0.00 % 9.00 % 0.00 & 0.00 % 0.00 % 
14 四 类 97.96 X 99.62 X 99.42% 100.00% 99.85 X, 
15 I 
16 Tm _ l 0.0056. 0.3656. 0.07 6. 0.00 56. 99.85 % 
i7 分 类 错误 l 100.00% 99.64% 99.93% 100.00% 0.15% 
18 
19 计数 结果 _ 
20 RRA || ERRE) le 二 类 (实际 ) >| AARE) > BUS (SEES) |> 
21 | 一 类 0 D 0 0 0 
22 三 类 50 102 78 0 65 
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图 26-12 ”模型 treel 分 类 和 矩阵 
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表 26-7 模型 tree1 分 类 矩阵 


AA EE | ma Ro 


% 


类 0.00 
= 0.15 
二 类 0.00 
五 类 0.00 


四 类 99.62 99.42 100.00 99.85 
正确 0.07 99.85 


分 类 错误 


26.4.2 单纯 贝 叶 斯 分 类 


挖掘 模型 是 以 自动 编码 row index 为 索引 键 ， 
斯 模型 设 定 所 有 零售 户 的 基本 数据 为 自 变量 , 分 析 某 一 款 


所 示 。 


Ee m 99.64 99.93 


Æ 26-8 ” 贝 叶 斯 模型 的 自 变量 设 定 


0.15 


以 香烟 的 商品 品牌 为 因 变 量 ， 建 立 贝 叶 
香烟 被 购 进 的 潜在 原因 , 如 表 26-8 


输入 自 变量 名 $m x 类 m 
出 样 能 力 柜台 陈列 卷烟 样品 的 数量 整 型 变量 
出 样 形式 陈列 卷烟 样品 的 形式 分 类 变量 
从 业 人 数 该 商户 的 员工 人 数 整 型 变量 
地 段 人 气 店面 所 处 地 段 的 繁华 程度 分 类 变量 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 
结算 方式 付 货 款 的 方式 分 类 变量 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 分 类 变量 
入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 日 期 变量 
是 否 主 营 主 营 卷烟 还 是 兼 营 分 类 变量 
文化 素质 店主 (法 人 代表 ) 的 学 历 分 类 变量 
许可 证 种 类 持 有 何 种 零售 许可 证 分 类 变量 
营业 面积 店面 的 营业 面积 连续 变量 
主管 部 门 所 在 地 的 烟草 零售 主管 部 门 分 类 变量 
总 数 某 商户 月 销售 总 数 整 型 变量 


贝 叶 斯 分 析 中 ， 图 26-13 为 关联 性 连结 图 ， 关 联 性 强度 大 小 为 : 总 数 > 客 户 星 级 > 客 
户 类 别 > 主 管 部 门 > 出 样 能 力 > 是 否 主 营 > 结 算 方 式 > 营 业 面 积 > 文化 素质 > 地 段 人 气 > 


订货 类 型 ， 在 此 模型 中 可 得 出 购买 何 种 品牌 香烟 与 商户 月 销售 总 数 有 最 强 的 关联 性 。 
图 26-14 表现 了 购 入 某 品牌 的 零售 户 的 各 种 特征 。 


I 
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依赖 关系 网 络 | 属性 配置 文件 | 属性 特征 | 属性 对 比 
图 加 ee EJE [aJ DUREE D 


订货 类 型 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 
E] 所 选 节点 轩 所 选 节点 预测 此 节点 
E] 此 节点 预测 所 选 节点 B 双向 预测 


复制 到 Excel (E) 
E 26-13 ” 贝 叶 斯 分 析 分 类 和 矩阵 


依赖 关系 网 络 | 属性 配置 文件 “| 属性 特征 | 属性 对 比 
属性 : | 商品 名 称 ~ Tl: 11ng 滤 羡 红 双喜 v 


INT TDI 

| 属性 

订货 类 型 

结算 方式 

客户 星 级 4 星 

客户 类 别 a 

是 否 主 营 ** 

主管 部 门 市 烟草 考 卖 局 禾 . . . 
文化 素质 高 中 

地 段 人 气 居民 区 一 般 街道 
总 数 201 - 510 
地 段 人 气 繁华 交通 要 道 
营业 面积 >= 20 

文化 素质 初中 

出 样 能 力 30 - 45 
ESEE rt 


E126-44 ” 贝 叶 斯 分 析 属 性 特征 


图 26-15 是 在 不 同 自 变量 条 件 下 ， 零 售 户 倾向 于 购买 品牌 的 分 析 表 。 

如 果 对 某 种 商品 感 兴趣 ， 可 以 画 出 该 贝 叶 斯 分 析 模 型 对 此 品牌 的 准确 性 图 表 ， 观 察 其 
预测 效能 。 例 如 图 26-16， 如 果 关 心 “ 醇 盖 红 梅 ” 的 销售 状况 ， 可 以 画 出 其 准确 性 图 表 。 发 
现 贝 叶 斯 分 析 模 型 在 预测 商品 “ 醇 盖 红 梅 ”被 零售 商 采 购 的 预测 效能 ， 显 著 好 于 随机 猜测 ， 
但 是 与 理想 模型 相 比 ， 还 存在 较 大 的 差距 。 
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| 依赖 关系 网 络 | 属性 配置 文件 “| 属性 特征 | 属性 对 比 
属性 : | 商品 名 称 ` g 1: [iaig] (8 2: | 所 有 其 


lag... MARRS 
地 段 人 气 .。 42 13270 
ARA... 56 18325 


| seama 
BERORR 
< 201 


居民 区 一 般 街道 
< 18 

主管 部 门 缺失 

总 数 201 - 510 

是 否 主 营 主 营 


< 


复制 到 Excel(E) 


图 26-15 贝 叶 斯 分 析 属 性 辨识 
—/ gus mA mm A mm SA m me | RRE -ox 


s 3 = p aS ZS Oo ^W 
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模型 “Bayes" 的 准确 性 图 表 
Em = 


总 体 正确 百分比 
s 
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40% 


0% 20% 


| 


E 


图 26-16 贝 叶 斯 分 析 准 确 性 图 表 


264.5 XX 
构建 聚 类 分 析 挖掘 模型 以 自动 编号 row. index 为 索引 键 ， 将 所 有 零售 户 基本 资料 变量 
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设 为 自 变 量 ， 如 表 26-9 所 示 。 按 照 默认 设置 ， 将 卷烟 零售 户 集聚 成 10 类 。 
表 26-9 聚 类 分 析 的 自 变量 设 定 


输入 自 变量 名 = x 类 型 
出 样 能 力 柜台 陈列 卷烟 样品 的 数量 整 型 变量 
出 样 形式 陈列 卷烟 样品 的 形式 分 类 变量 
从 业 人 数 该 商户 的 员工 人 数 整 型 变量 
地 段 人 气 分 类 变量 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 
结算 方式 付 货款 的 方式 分 类 变量 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 分 类 变量 
入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 日 期 变量 
EREE 分 类 变量 
文化 素质 分 类 变量 
许可 证 种 类 分 类 变量 
营业 面积 连续 变量 
主管 部 门 所 在 地 的 烟草 零售 主管 部 门 分 类 变量 
总 数 某 商户 月 销售 总 数 
总 额 某 商户 的 总 销售 金额 


利润 某 商户 月 卷烟 零售 利润 连续 变量 


分 类 1 全 部 采取 电话 订货 的 方式 , 客户 类 别 全 部 是 B 类 户 , 绝 大 部 分 (概率 在 90% 以 上 ) 
的 零售 户 持 有 普通 零售 的 卷烟 销售 许可 证 , 客户 星 级 为 3 星 , 月 销售 额 在 125.5 一 12 153.7 元 ， 
月 销售 利润 在 37.8—3 929.6 元 ， 经 营 形式 是 兼 营 ， 营 业 面 积 0.0 一 64.4 平方 米 ， 月 总 销售 
数量 为 32 一 276 ^. 

分 类 2 全 部 采取 电话 订货 的 方式 ， 绝 大 部 分 〈 概 率 超 过 90%) 的 零售 户 持 有 普通 零售 
的 卷烟 销售 许可 证 ， 结 算 方式 为 电子 结算 ， 月 销售 利润 在 37.8—3 929.6 元 ， 月 销售 额 在 
125.5—12 153.7 元 ， 客 户 星 级 为 4 星 ， 客 户 类 别 全 部 是 A 类 户 ， 经 营 形式 是 兼 营 ， 营 业 面 
积 为 0.0 一 64.4 平方 米 ， 月 总 销售 数量 为 32 一 276 条 。 

分 类 3 全 部 采用 电话 订货 的 方式 ， 绝 大 部 分 〈 概 率 超过 9994) 为 B 类 户 ， 许 可 证 种 类 为 
普通 零售 ， 客 户 星 级 为 3 星 ， 月 销售 利润 在 37.8 一 3 929.6 元 ， 月 销售 额 在 125.5 一 12 153.7 元 ， 
采用 兼 营 的 形式 ， 月 总 销售 数量 为 32 一 276 条 。 

分 类 4 全 部 采用 电话 订货 ， 许 可 证 种 类 全 部 为 普通 零售 。 有 很 大 部 分 〈 概 率 低 于 90%, 
高 于 80%) 营业 户 是 营业 面积 为 0.0 一 64.4 平方 米 ， 结 算 方式 为 电子 结算 。 大 部 分 (概率 低 于 
80%， 高 于 70%) 月 销售 额 在 24 402.2 一 66 632.7 元 之 间 ， 利 润 在 7 975.9—21 926.5 元 之 间 。 

分 类 5 的 订货 方式 全 部 为 电话 订货 ， 客 户 星 级 全 部 为 4 星 ， 客 户 类 别 全 部 为 A 级 ， 结 
算 方式 全 部 为 电子 结算 ， 许 可 证 种 类 全 部 为 普通 零售 ， 有 绝 大 部 分 (概率 为 96.88%) 营业 
面积 为 0 一 64.4 平方 米 。 

分 类 6 的 订货 方式 全 部 为 电话 订货 ， 许 可 证 种 类 全 部 为 普通 零售 ， 有 绝 大 部 分 〈 概 率 
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H 92.2694) 营业 面积 为 0.0 一 64.4 平方 米 ， 绝 大 部 分 (概率 为 90.93%) 经 营 方式 为 兼 营 ， 
很 大 部 分 (概率 低 于 90%， 高 于 80%) 结算 方式 为 电子 结算 ， 客 户 星 级 为 3 星 客户 类 别 为 
B 类 ， 大 部 分 的 〈 概 率 低 于 80%， 高 于 70%) 商户 的 “地 段 人 气 ” 类 型 为 居民 一 般 街道 ， 
商户 法 人 代表 的 文化 素质 为 初中 。 

分 类 7 的 订货 方式 全 部 为 电话 订货 ， 许 可 证 种 类 绝 大 部 分 (99.99%) 为 普通 零售 ， 绝 
大 部 分 的 (概率 为 96.38%) 零售 户 月 销售 总 额 为 125.5 一 12 153.7 元 ， 月 销售 利润 在 37.8 一 
3929.6 元 ， 并 且 88.58% 的 商户 月 销售 量 为 32 一 276 条 。 

分 类 8 绝 大 部 分 〈 概 率 在 90% 以 上 ) 的 出 样 形式 为 混合 型 ， 结 算 方 式 为 电子 结算 ， 许 
可 证 为 普通 零售 ， 订 货 方式 为 电话 订货 。 很 大 部 分 〈 概 率 低 于 90%， 高 于 80%) 的 商户 为 
4 星 级 ，A 类 户 。 大 部 分 (59% 以 上 ) 月 销售 量 为 323 一 1 368 条 ， 经 营 方式 为 主 营 ， 店 主 
文化 素质 为 高 中 。 

分 类 9 的 订货 方式 全 部 为 电话 订货 ， 从 业 人 数 全 部 为 0， 意 味 着 店主 是 自我 雇用 ， 相 
当 大 比例 的 零售 户 有 多 项 资料 缺失 : 例如 入 网 日 期 、 地 段 人 气 、 主 管 部 门 、 许 可 证 种 类 、 
主 营 与 否 、 出 样 形式 、 文 化 素质 等 。94% 的 商户 为 B 类 , 客户 星 级 为 3 星 , 营业 面积 为 0.0 一 
64.4 平方 米 ， 但 是 出 样 能 力 为 0 意味 着 由 于 经 营 场地 的 限制 ， 没 有 展示 品牌 的 柜台 货架 ， 
因而 没有 出 样 能 力 。 

分 类 10 的 客户 类 别 全 部 为 B 类 ， 订 货 类 型 为 电话 订货 ， 绝 大 部 分 〈 概 率 高 于 90%) 
为 兼 营 的 形式 。 大 部 分 〈 概 率 低 于 90%， 高 于 80%) 为 电子 结算 。 大 部 分 商户 的 出 样 形式 
为 混合 ， 客 户 星 级 为 2 星 ， 地 段 的 人 气 大 部 分 也 很 旺 ， 处 于 繁华 交通 要 道 。 

图 26-17 展示 了 在 这 些 分 类 之 中 ， 零 售 户 的 特点 。 


Cox 
| 分 类 关系 图 | ARNM E | 分 类 对 比 | L = x 
回 显示 图 例 直方 图 条 数 : [4 Q 点 d 
— 显示 最 小 值 -1.00 
平均 值 -StdDev 9.60 
平均 值 24.00 
平均 值 fStdDev — 38.40 
显示 最 大 值 67.21 


地 段 人 气 人 
内 主要 商业 
aiiis 
< J! A 
Ji | = 
EAE Excel (E) xmo 


图 26-17 聚 类 分 析 模 型 聚 类 概况 
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图 26-18 为 各 个 分 类 之 间 的 关联 强度 示意 图 。 关 联 强 度 越 强 的 两 类 ， 说 明 两 类 之 间 越 
是 存在 明显 的 规律 。 
显然 ， 分 类 3 和 分 类 6 为 最 强 的 连接 。 图 26-19 和 图 26-20 显示 了 分 类 3 和 分 类 6 的 


分 类 关系 图 | 分 类 剖面 图 】 HAE 分 类 对 比 
& + ¿a Qa 00 a + SERRE. 总体 
t. x DENEI des 


复制 到 Excel (E) 


dE 


m 
= 
5» 


> 


TARN 
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Æ 26-19 RÆ 3 的 特征 
图 26-21 反映 了 分 类 3 和 分 类 6 的 区 别 ， 由 此 可 以 找 出 这 两 类 之 间 的 明显 规律 性 。 分 


=s 


IE [esc mEERSSTRAO | | 4 4 4 


类 3 和 分 类 6 的 月 度 销售 量 、 销 售 额 和 利润 都 在 不 同 的 区 间 内 的 可 能 性 非常 大 。 前 者 的 销 
售 分 类 3 的 上 述 各 项 指标 比分 类 6 偏 低 。 


分 类 关系 图 | 分 类 剖面 图 分 类 特征 分 类 对 比 
分 类 : * 


居民 区 一 般 街道 
初中 
gem 12153.7 - 24402.2 
利润 3929.6 - 1915.9 
出 样 形式 混合 
总 数 217 - 522 


a| 


图 26-20 分 类 6 的 特征 


分 类 2: EESEI 


倾向 于 分 类 3 倾向 于 分 类 6 
125.5 - 8677.4 
8617.4 - 120170. 0 
37.8 - 2771.6 


2771.6 - 42944. 6 
5 - 239 

240 - 1800 

B% 

F: 

4 星 

38 


复制 到 Excel (E) 


图 26-21 分 类 3 和 分 类 6 的 区 别 对 比 


264.4 决策 树 


以 零售 户 利润 为 因 变 量 ， 其 他 零售 户 资料 变量 为 自 变量 ， 建 立 决策 树 模型 reg treel， 
如 表 26-10 所 示 。 决 策 树 模型 和 多 元 线性 回归 模型 都 可 以 用 来 分 析 多 个 自 变量 对 于 一 个 变 
量 的 影响 。 之 所 以 考虑 决策 树 模型 而 非 多 元 线性 回归 模型 ， 是 因为 自 变 量 中 含有 大 量 的 分 
类 变量 ,而 且 决 策 树 有 助 于 反映 变量 之 间 的 非 线 性 关系 。 在 借助 excel-addin 调用 SQL 算法 
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的 时 候 ， 只 需 选 择 决 策 树 算法 ， 由 于 因 变 量 是 连续 变量 ， 所 以 系统 会 自动 构建 决策 树 。 
图 26-22 呈现 了 决策 树 的 结果 。 


R 26-10 ”决策 树 模型 的 自 变量 设 定 


输入 自 变量 名 


出 样 能 力 柜台 陈列 卷烟 样品 的 数量 整 型 变量 
出 样 形式 陈列 卷烟 样品 的 形式 分 类 变量 


从 业 人 数 该 商户 的 员工 人 数 整 型 变量 


地 段 人 气 店面 所 处 地 段 的 繁华 程度 分 类 变量 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 


结算 方式 付 货款 的 方式 分 类 变量 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 

入 网 日 其 零售 户 加 入 销售 网 络 的 日 其 量 
是 否 主 营 主 营 卷烟 还 是 兼 营 Ape 
文化 素质 | ME (法 人 代表 ) Mem | 

许可 证 种 类 
营业 面积 
主管 部 站 


lalx 

决策 树 | 依赖 关系 网 络 | 

aja] zal [id m mm s ————— BUNE: [Sa | 
直方 图 条 数 : [5 习 背景 [全 部 事例 = 显示 级 别 1 Jš 


26-22 ”决策 树 1 的 结果 
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依赖 关系 网 络 则 显示 了 各 种 自 变量 对 于 利润 的 影响 的 相对 强 弱 程度 , 如 图 26-23 所 示 。 
可 见 ， 总 数 对 利润 影响 最 大 ， 其 他 相关 的 变量 以 相依 性 从 大 到 小 排序 : 地 段 人 气 、 客 户 星 
级 、 主 管 部 门客 户 类 别 、 是 否 主 营 。 
EXT I -ls|x| 


决策 树 ”依赖 关系 网 络 | 
qa aa 到 到 a| 厂 显示 长 名 称 (D) 
所 有 链接 


”在 网 络 中 选中 某 个 闻 点 以 突出 显示 其 依 加 关系 。 
paws 。 国 所 选 节点 [Eg] 所 选 节点 预测 此 节点 
国 此 节点 预测 所 选 节点 B 双向 预测 


复制 到 Excel (E) 关闭 (C) d 
26-23 决策 树 1 自 变量 与 因 变量 利润 的 相依 性 
26.4.5 Logistic 回归 
以 客户 星 级 为 因 变 量 ， 客 户 资料 中 的 其 他 变量 为 自 变量 ， 构 建 Logistic 回归 模型 log， 


如 表 26-11 所 示 。 找 出 其 他 变量 与 客户 星 级 的 关系 。 通 过 构建 Logistic 回归 模型 ， 可 以 反映 
出 不 同 星 级 客户 在 其 他 属性 上 的 区 别 ， 如 图 26-24、 图 26-25、 图 26-26 所 示 。 


表 26-11 log 模型 的 变量 列表 


输入 自 变 量 名 # x x 型 
出 样 能 力 | 柜台 陈列 卷烟 样品 的 数量 | 整 型 变量 
出 样 形式 | 陈列 卷烟 样品 的 形式 | 分 类 变量 


从 业 人 数 该 商户 的 员工 人 数 整 型 变量 


地 段 人 气 店面 所 处 地 段 的 繁华 程度 


续 表 
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输入 自 变量 名 m x 类 m 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 
结算 方式 付 货款 的 方式 分 类 变量 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 分 类 变量 
入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 日 期 变量 
是 否 主 营 主 营 卷 烟 还 是 兼 营 分 类 变量 
文化 素质 店主 (法 人 代表 ) 的 学 历 分 类 变量 
许可 证 种 类 持 有 何 种 零售 许可 证 分 类 变量 
营业 面积 店面 的 营业 面积 连续 变量 
主管 部 门 zi 分 类 变量 
总 数 整 型 变量 
利润 连续 变量 


主管 部 门 
从 业 人 数 
从 业 人 数 
客户 类 别 
主管 部 门 
主管 部 门 
客户 类 别 
ITARA 
许可 证 种 类 
Mol A 
从 业 人 数 


省 土产 日 杂 公司 TE 
12 IEEE 
25 —s= 
a% [| 
烟草 实业 公司 

市 粮油 供 公司 EN 
了 类 

网 上 配 货 BER 
特种 

8 m 
0 
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图 26-24 log 模型 中 的 4 星 客户 与 3 星 客户 的 区 别 
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复制 到 Excel(E) 关闭 (C) y 
A 


Æ 26-26 log 模型 中 的 4 星 客户 与 2 星 客户 的 区 别 
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1. 模型 结果 

从 图 26-24、 图 26-25、 图 26-26 可 以 看 到 模型 的 构建 结果 ， 比 较 三 个 星 级 的 客户 在 其 
他 属性 上 有 什么 不 同 。 例 如 ， 当 商户 的 从 业 人 数 为 25 或 者 12 时 ,客户 等 级 为 4 星 的 可 能 性 
远大 于 3 星 。 当 主管 部 门 为 省 土产 日 杂 公司 时 ， 客 户 等 级 为 2 星 的 可 能 性 远大 于 3 星 、4 星 。 

2. 挖掘 精确 度 图 表 

如 果 对 某 种 客户 星 级 感 兴趣 ， 可 以 画 出 该 log 模型 对 此 品牌 的 准确 性 图 表 ， 观 察 其 预 
测 效 能 。 例 如 图 26-27， 如 果 关 心 对 “3 星 ” 的 客户 的 预测 效能 ， 可 以 画 出 其 准确 性 图 表 。 
发 现 log 模型 在 预测 “3 星 ” 的 客户 时 ， 显 著 好 于 随机 猜测 ， 与 理想 模型 相 比 ， 差 距 不 大 。 


到 mA | mos @- = x 
aan s Ç $ X = S 7G A⁄ R > = 
浏览 m ”为数 分 估 We x< 5B 高 准确 分 类 利 管理 DMAddinsDB 跟 “ 
数据 BE- 据 分 区 类 t 20 联 A a- 性 图表 E GE x = 模型 (localhost) —8& 助 - 
数据 准备 mum 准确 性 和 验证 模型 用 法 管理 Weg. "Rb 

m -G Z| WIN "log" BTERAHERURE s 

A B c D E E c H I š - 


模型 "log” 的 准确 性 图 表 l 


预测 列 "客户 星 级 "=3 星 


“log" 模 型 提升 147.75% 


24 20% ` 


29 0% ` i : E : ü s Ü ji 

30 0% 20% 40% 60% 80% 
A « » n| source | EANA , Classification Matrix 0, Classification Matrix_1 Accuracy Chart |] 
" ELE e 


Æ 26-27 log 模型 中 的 3 星 客户 的 预测 准确 性 图 表 


X 26-12 为 log 模型 的 分 类 和 矩阵， 由 分 类 矩阵 中 亦 可 看 出 该 模型 能 够 比较 准确 地 找 出 
3 星 和 4 星 的 客户 ， 但 是 会 把 大 部 分 2 星 客户 错 估 为 3 星 客 户 ， 如 图 2628 所 示 。 


表 26-12 log 模型 的 分 类 矩阵 % 
4 星 (实际 ) 
2H 37.50 0.13 0.00 
35 62.50 99.87 0.00 
4m 0.00. 0.00. 100.00 


IE B | 692007 数据 挖 握 完 全 手册 


续 表 
2 星 (实际 ) 3 星 (实际 ) 48 (实际 ) 
正确 37.50 99.87 100.00 
分 类 错误 62.50 0.13 0.00 
VJ ma mA NES AE ERO eA SE XA RERS @- = x 
3] 3 88 s 2 @ % 4 <S AAD RO Q k 2R 
BUR We ”为数 2 e NX x = 高 Fm 分 类 利 管理 ”DMAddinsDB 跟 " 
数据 EdE-GROX 类 计 分 & 测 级 CER UE GE z 8 HE (ocahos 3 助 - 
Bota Bazu RERE 楼 型 用 法 == 连接 帮助 
Al -Q £| 模型 “1og” 对 列 “客户 星 级 ”的 正确 /错误 分 类 的 计数 — _ - I s 
n B c D E E G E 
1 “log" 对 列 ` 客 户 "的 正 RIA 
2 _ 行 对 应 于 预测 
3 
4 
5 正确 总 计 99.16% 1306 
6 错误 分 类 总 计 0.84% 11 
7 
s 百分比 结果 = 
9 2 星 (实际 ) v| 3 8E (Sc) w 4 星 (实际 ) x 
10 28 37.50 X 0.13 5 0.00 * 
ii 38 62.50% 99.87 X 0.00 X 
12 4% 0.00 X 0.00% 100.00 %, 
13 
14 正确 37.50% 99.87% 100.00% 
is 分 类 情 误 62.50% 0.13% 0.00% 
16 
17 计数 结果 — -O 
18 an A SM 
19 28 6 0 
M «^ ^ source | 分 类 矩阵 “准确 性 图 表 .Accuracy Chart 0 — Data, Unselected Data, 224 NE uli 
ma [sa jao O 


图 26-28 log 模型 预测 分 类 和 矩阵 
26.4.6 ”关联 分 析 


以 客户 星 级 为 因 变量 ， 其 余 的 客户 资料 变量 为 自 变 量 ， 建 立 关联 模型 association， 如 
K 26-13 所 示 。 借 此 找 出 哪 种 自 变量 和 某 种 客户 星 级 最 有 关系 。 


表 26-13 association 模型 的 变量 列表 


输入 自 变量 名 € x= 类 型 
出 样 能 整 型 变量 
出 样 形式 陈列 卷烟 样品 的 形式 分 类 变量 
从 业 人 数 该 商户 的 员工 人 数 整 型 变量 
地 段 人 气 店面 所 处 地 段 的 繁华 程度 分 类 变量 
订货 类 型 电话 或 网 络 等 订货 方式 分 类 变量 
结算 方式 付 货 款 的 方式 分 类 变量 

续 表 
I 
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输入 自 变量 名 & x 类 m 
客户 类 别 -种 烟草 管理 部 门 的 评价 分 类 变量 
客户 星 级 -种 烟草 管理 部 门 的 评价 分 类 变量 
入 网 日 期 零售 户 加 入 销售 网 络 的 日 期 日 期 变量 
是 否 主 营 主 营 卷 烟 还 是 兼 营 分 类 变量 
文化 素质 店主 (法 人 代表 ) 的 学 历 分 类 变量 
许可 证 种 类 持 有 何 种 零售 许可 证 分 类 变量 
营业 面积 店面 的 营业 面积 连续 变量 
主管 部 门 所 在 地 的 烟草 零售 主管 部 门 分 类 变量 
总 数 某 商 户 月 销售 总 数 整 型 变量 


利润 某 商 户 月 卷烟 零售 利润 连续 变量 
构建 模型 完毕 ， 可 以 用 依赖 关系 网 络 来 反映 因 变量 的 不 同 取 值 和 自 变 量 的 不 同 取 值 之 
间 的 关系 。 图 26-29 反映 客户 星 级 为 3 星 的 关联 状况 。 此 种 客户 星 级 和 茹 车 这 种 经 营 形式 
关联 最 强 ， 此 外 ， 还 和 出 样 能 力 小 于 18， 月 销售 量 小 于 6 511 条 ， 利 润 小 于 2 652.49 元 等 
条 件 有 关系 。 


_- D| x| 
项 集 | 规则 依赖 关系 网 络 | 


aol 到 到 a| Ss [z=Et=ema =] D 显示 长 名 称 


在 网 络 中 选中 某 个 节点 以 突出 显示 其 依赖 关系 。 


summ Hita 国 Post eat s 
国 此 节点 预测 所 选 节点 图 双向 预测 


复制 到 Excel(E) 关闭 iC) 

AAE Ecel | .xmo |, 
图 26-29 association 模型 依赖 关系 网 络 一 一 客户 星 级 为 3 E 

图 26-30 反映 客户 星 级 为 4 星 的 关联 状况 。 此 种 客户 星 级 和 店主 文化 素质 是 高 中 关联 


—2393—. 


26-30 association 模型 依赖 关系 网 络 一 一 客户 星 级 为 4 星 


图 26-31 反映 客户 星 级 为 2 星 的 关联 状况 。 此 种 客户 星 级 和 主管 部 门 为 省 土产 日 杂 公 
司 、 从 业 人 数 为 25 这 两 个 条 件 有 明显 的 关联 关系 。 


aja 可 本 | 到 到 a| © r 


26-31 association 模型 依赖 关系 网 络 一 一 客户 星 级 为 2 E 
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构建 关联 模型 只 是 为 了 对 现 有 数据 中 的 信息 进行 合理 的 描述 和 呈现 ， 找 出 其 中 隐 含 的 
规律 ， 而 非 进行 预测 。 故 而 对 模型 进行 评价 时 ， 主 要 是 看 营销 人 员 能 和 否 从 中 解读 出 有 效 规 
律 ， 而 非 依赖 画 出 各 种 预测 精确 图 表 进 行 评 判 。 


26.5 ”结论 


依据 以 上 分 析 与 建 模 ， 有 以 下 的 结论 整理 : 

(1) 决策 树 模 型 ， 反 映 某 零售 户 所 购买 卷烟 的 等 级 与 卷烟 的 利润 率 有 最 强 的 关联 性 ， 
其 次 为 月 销售 总 数 及 主管 部 门 。 

(2) 贝 叶 斯 概率 ， 在 会 选 购 11mg 滤 盖 红双喜 的 零售 户 的 属性 中 ， 以 “店面 在 繁华 交 
通 要 道 ， 主 管 部 门 为 稽查 中 心 晋 源 所 ， 月 销售 总 数 在 201 条 以 上 ， 客 户 星 级 为 4 星 ” 的 居 
多 。 

GO 决策 树 中 , 显示 月 总 销售 数 与 利润 最 有 关联 性 , 其 次 依 序 为 地 段 人 气 、 客 户 星 级 、 
主管 部 门客 户 类 别 、 是 否 主 营 。 

(4) Logistic 回归 中 ， 由 于 零售 户 等 级 多 为 3 星 和 4 星 ， 因 此 比较 3 星 与 4 星 的 差异 。 
主管 部 门 为 省 土产 日 杂 公 司 ， 从 业 人 数 为 12 或 25 人 ， 客 户 类 别 为 A 类 的 零售 户 为 4 星 等 
级 的 可 能 性 较 大 ， 而 从 业 人 数 为 7 或 198， 主 管 部 门 为 烟草 实业 公司 或 粮油 总 公司 的 零售 
户 ， 偏 向 4 星 的 可 能 性 大 。 

(5) 关联 分 析 中 ， 客 户 星 级 为 3 星 的 零售 户 有 很 大 可 能 性 : 出 样 能 力 小 于 18， 月 销 
售 量 小 于 6511 条 ， 利 润 小 于 265249 元 。 客 户 星 级 为 2 星 的 零售 户 ， 主 管 部 门 为 省 土产 
日 杂 公 司 和 从 业 人 数 为 25 的 可 能 性 较 大 ; 客户 星 级 为 4 星 的 零售 户 , 店主 文化 素质 是 高 中 ， 
月 销售 总 额 大 于 66 118 元 ， 销 售 总 数 在 921—1330 条 之 间 ， 利 润 大 于 23 420 元 ， 出 样 能 
力 在 45—62 之 间 ， 经 营 类 型 为 专营 的 可 能 性 最 大 。 
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